4.3 Hadoop发行版的选择
-
Apache Hadoop
- 开源社区版
- 最新的Hadoop版本都是从Apache Hadoop发布的
- Hadoop Hive Flume 版本不兼容的问题 jar包 spark scala Java->.class->.jar ->JVM
-
CDH: Cloudera Distributed Hadoop
-
Cloudera 在社区版的基础上做了一些修改
-
http://archive.cloudera.com/cdh5/cdh/5/
-
hadoop-2.6.0-cdh-5.7.0 和 Flume*****-cdh5.7.0 cdh版本一致 的各个组件配合是有不会有兼容性问题
-
CDH版本的这些组件 没有全部开源
-
-
HDP: Hortonworks Data Platform
4.4 大数据产品与互联网产品结合
- 分布式系统执行任务瓶颈: 延迟高 MapReduce 几分钟 Spark几秒钟
- 互联网产品要求
- 毫秒级响应(1秒以内完成)
- 需要通过大数据实现 统计分析 数据挖掘 关联推荐 用户画像
- 大数据平台
- 整合网站应用和大数据系统之间的差异, 将应用产生的数据导入到大数据系统, 经过处理计算后再导出给应用程序使用
- 互联网大数据平台架构:
- 数据采集
- App/Web 产生的数据&日志同步到大数据系统
- 数据库同步:Sqoop 日志同步:Flume 打点: Kafka
- 不同数据源产生的数据质量可能差别很大
- 数据库 也许可以直接用
- 日志 爬虫 大量的清洗,转化处理
- 数据处理
- 大数据存储与计算的核心
- 数据同步后导入HDFS
- MapReduce Hive Spark 读取数据进行计算 结果再保存到HDFS
- MapReduce Hive Spark 离线计算, HDFS 离线存储
- 离线计算通常针对(某一类别)全体数据, 比如 历史上所有订单
- 离线计算特点: 数据规模大, 运行时间长
- 流式计算
- 淘宝双11 每秒产生订单数 监控宣传
- Storm(毫秒) SparkStreaming(秒)
- 数据输出与展示
- HDFS需要把数据导出交给应用程序, 让用户实时展示 ECharts
- 淘宝卖家量子魔方
- 给运营和决策层提供各种统计报告, 数据需要写入数据库
- 很多运营管理人员, 上班后就会登陆后台数据系统
- HDFS需要把数据导出交给应用程序, 让用户实时展示 ECharts
- 任务调度系统
- 将上面三个部分整合起来
4.5 大数据应用–数据分析
-
通过数据分析指标监控企业运营状态, 及时调整运营和产品策略,是大数据技术的关键价值之一
-
大数据平台(互联网企业)运行的绝大多数大数据计算都是关于数据分析的
- 统计指标
- 关联分析,
- 汇总报告,
-
运营数据是公司管理的基础
- 了解公司目前发展的状况
- 数据驱动运营: 调节指标对公司进行管理
-
运营数据的获取需要大数据平台的支持
- 埋点采集数据
- 数据库,日志 三方采集数据
- 对数据清洗 转换 存储
- 利用SQL进行数据统计 汇总 分析
- 得到需要的运营数据报告
-
运营常用数据指标
-
新增用户数 UG user growth 用户增长
- 产品增长性的关键指标
- 新增访问网站(新下载APP)的用户数
-
用户留存率
- 用户留存率 = 留存用户数 / 当期新增用户数
- 3日留存 5日留存 7日留存
-
活跃用户数
- 打开使用产品的用户
- 日活
- 月活
- 提升活跃是网站运营的重要目标
-
PV Page View
- 打开产品就算活跃
- 打开以后是否频繁操作就用PV衡量, 每次点击, 页面跳转都记一次PV
-
GMV
- 成交总金额(Gross Merchandise Volume) 电商网站统计营业额, 反应网站应收能力的重要指标
- GMV相关的指标: 订单量 客单价
-
转化率
转化率 = 有购买行为的用户数 / 总访问用户数
-
4.6 数据分析案例
-
背景: 某电商网站, 垂直领域领头羊, 各项指标相对稳定
-
运营人员发现从 8 月 15 日开始,网站的订单量连续四天明显下跌
-
8 月 18 号早晨发现 8 月 17 号的订单量没有恢复正常,运营人员开始尝试寻找原因
- 是否有负面报道被扩散
- 是否竞争对手在做活动
- 是否某类商品缺货
- 价格异常
-
没有找到原因, 将问题交给数据分析团队
-
数据分析师分析可能性
- 新增用户出现问题
- 查看日活数据, 发现日活没有明显下降
- 基本判断, 用户在访问网站的过程中,转化出了问题
-
转化过程:
- 打开APP
- 搜索关键词 浏览搜索结果列表
- 点击商品访问详情
- 有购买意向开始咨询
- 放入购物车
- 支付
-
订单活跃转化率 = 日订单量 / 打开用户数
-
搜索打开转化率 = 搜索用户数 / 打开用户数
-
有明显降幅的是咨询详情转化率
- 对咨询信息分类统计后发现,新用户的咨询量几乎为 0
- 于是将问题提交给技术部门调查,工程师查看 8 月 15 日当天发布记录,发现有消息队列SDK更新
Hadoop企业应用案例之消费大数据
亚马逊提前发货系统
Hadoop企业案例之商业零售大数据
智能推荐