4.3 Hadoop发行版的选择

  • Apache Hadoop

    • 开源社区版
    • 最新的Hadoop版本都是从Apache Hadoop发布的
    • Hadoop Hive Flume 版本不兼容的问题 jar包 spark scala Java->.class->.jar ->JVM
  • CDH: Cloudera Distributed Hadoop

    • Cloudera 在社区版的基础上做了一些修改

    • http://archive.cloudera.com/cdh5/cdh/5/

    • hadoop-2.6.0-cdh-5.7.0 和 Flume*****-cdh5.7.0 cdh版本一致 的各个组件配合是有不会有兼容性问题

    • CDH版本的这些组件 没有全部开源

  • HDP: Hortonworks Data Platform

4.4 大数据产品与互联网产品结合

  • 分布式系统执行任务瓶颈: 延迟高 MapReduce 几分钟 Spark几秒钟
  • 互联网产品要求
    • 毫秒级响应(1秒以内完成)
    • 需要通过大数据实现 统计分析 数据挖掘 关联推荐 用户画像
  • 大数据平台
    • 整合网站应用和大数据系统之间的差异, 将应用产生的数据导入到大数据系统, 经过处理计算后再导出给应用程序使用
  • 互联网大数据平台架构:

  • 数据采集
    • App/Web 产生的数据&日志同步到大数据系统
    • 数据库同步:Sqoop 日志同步:Flume 打点: Kafka
    • 不同数据源产生的数据质量可能差别很大
      • 数据库 也许可以直接用
      • 日志 爬虫 大量的清洗,转化处理
  • 数据处理
    • 大数据存储与计算的核心
    • 数据同步后导入HDFS
    • MapReduce Hive Spark 读取数据进行计算 结果再保存到HDFS
    • MapReduce Hive Spark 离线计算, HDFS 离线存储
      • 离线计算通常针对(某一类别)全体数据, 比如 历史上所有订单
      • 离线计算特点: 数据规模大, 运行时间长
    • 流式计算
      • 淘宝双11 每秒产生订单数 监控宣传
      • Storm(毫秒) SparkStreaming(秒)
  • 数据输出与展示
    • HDFS需要把数据导出交给应用程序, 让用户实时展示 ECharts
      • 淘宝卖家量子魔方
    • 给运营和决策层提供各种统计报告, 数据需要写入数据库
      • 很多运营管理人员, 上班后就会登陆后台数据系统
  • 任务调度系统
    • 将上面三个部分整合起来

4.5 大数据应用–数据分析

  • 通过数据分析指标监控企业运营状态, 及时调整运营和产品策略,是大数据技术的关键价值之一

  • 大数据平台(互联网企业)运行的绝大多数大数据计算都是关于数据分析的

    • 统计指标
    • 关联分析,
    • 汇总报告,
  • 运营数据是公司管理的基础

    • 了解公司目前发展的状况
    • 数据驱动运营: 调节指标对公司进行管理
  • 运营数据的获取需要大数据平台的支持

    • 埋点采集数据
    • 数据库,日志 三方采集数据
    • 对数据清洗 转换 存储
    • 利用SQL进行数据统计 汇总 分析
    • 得到需要的运营数据报告
  • 运营常用数据指标

    • 新增用户数 UG user growth 用户增长

      • 产品增长性的关键指标
      • 新增访问网站(新下载APP)的用户数
    • 用户留存率

      • 用户留存率 = 留存用户数 / 当期新增用户数
      • 3日留存 5日留存 7日留存
    • 活跃用户数

      • 打开使用产品的用户
      • 日活
      • 月活
      • 提升活跃是网站运营的重要目标
    • PV Page View

      • 打开产品就算活跃
      • 打开以后是否频繁操作就用PV衡量, 每次点击, 页面跳转都记一次PV
    • GMV

      • 成交总金额(Gross Merchandise Volume) 电商网站统计营业额, 反应网站应收能力的重要指标
      • GMV相关的指标: 订单量 客单价
    • 转化率

      转化率 = 有购买行为的用户数 / 总访问用户数
      

4.6 数据分析案例

  • 背景: 某电商网站, 垂直领域领头羊, 各项指标相对稳定

  • 运营人员发现从 8 月 15 日开始,网站的订单量连续四天明显下跌

  • 8 月 18 号早晨发现 8 月 17 号的订单量没有恢复正常,运营人员开始尝试寻找原因

    • 是否有负面报道被扩散
    • 是否竞争对手在做活动
    • 是否某类商品缺货
    • 价格异常
  • 没有找到原因, 将问题交给数据分析团队

  • 数据分析师分析可能性

    • 新增用户出现问题
    • 查看日活数据, 发现日活没有明显下降
      • 基本判断, 用户在访问网站的过程中,转化出了问题

  • 转化过程:

    • 打开APP
    • 搜索关键词 浏览搜索结果列表
    • 点击商品访问详情
    • 有购买意向开始咨询
    • 放入购物车
    • 支付

  • 订单活跃转化率 = 日订单量 / 打开用户数

  • 搜索打开转化率 = 搜索用户数 / 打开用户数

  • 有明显降幅的是咨询详情转化率

    • 对咨询信息分类统计后发现,新用户的咨询量几乎为 0
    • 于是将问题提交给技术部门调查,工程师查看 8 月 15 日当天发布记录,发现有消息队列SDK更新

Hadoop企业应用案例之消费大数据

亚马逊提前发货系统

Hadoop企业案例之商业零售大数据

智能推荐