2019.07 - 2020.01 当淘网数据分析系统

项目描述

随着平台用户数量的不断增长,为了更加深刻了解用户在当淘网上的访问轨迹,调查用户体验优劣程度,通过在 页面埋点,获取用户点击浏览、下单、支付等行为数据,通过对用户行为数据的汇总处理,分析用户喜好、推广效果评 估、顾客转化率等,为网站的产品优化、运营推广提供数据支持.

  • 我们通过js埋点得到用户浏览页面所产生的日志文件, 并把日志信息保存到日志服务器上,
  • 通过flume采集多个日志服务器上的日志,并发送到kafka消息中间件上,使用flume将数据采集到HDFS上,
  • 利用hive对HDFS上的数据进行预处理保存到ODS层,
  • 然后对数据进行过滤脱敏格式转换保存到DWD层,
  • DWS层根据DWD层的表做成用户行为宽表和用户购买商品明细宽表等.
  • 根据DWS层的一些表统计的指标放到ADS层中.
  • 实时方面使用spark-streaming对保存在kafka上的数据进行实时计算处理,
  • 并将计算处理后的结果保存到hbase数据库上.

2019.09 - 2019.12 客客距离实时报表

项目描述

签客距离报表需要实时根据同步mysql的数据调用地图服务接口查询相关经纬度地址信息,计算客户与客户的距离,根据业务算法给出最优的车辆配货方式。

  • 通过离线大数据平台进行历史成本的清洗、计算,并形成实时计算所需的中转成本数据,提供给实时计算数据引擎;
  • 基于kafka 实时数据消费模式,监控运单数据的变化,进行客客距离、成本的实时计算,并通过开放平台将处理结果消息推送给前端业务系统;
  • 将实时大数据和离线大数据计算结果整合形成一体的数据服务,提供给前端调用。
  • 使用spark_streaming读取kafka的数据,调用地图的接口,根据经纬度获取地址,把数据写入到kudu,以便报表开发人员通过impala查询kudu表数据,在前端展示。
  • 把历史成本的数据通过spark从apache集群同步到cdh集群。

2018.12 - 2020.05 跨越速运集团apache-hadoop集群数据采集和报表任务调度

项目描述:

做跨越速运集团大数据平台的数据同步,包括apache-hadoop报表集群,自助报表cdh集群。

大数据平台数据采集服务于大数据部门,每天大约有2000多个表要做t+1的增量数据同步,包含单表和分库分表(十库百表,每个表被分到十个数据库里面,每个库有一百个表),有100多个表要做实时数据采集,并做离线和实时的etl数据清洗,以便报表开发工程师和数据仓库工程师使用。

  • 采用sqoop,spark,kettle把数据从公司的erp系统和外部数据源的数据同步到大数据集群的ods层,
  • 在ods层做清洗后写入到vdm 层,以便数据仓库开发人员使用。
  • 通过java生成数据采集脚本;
  • 使用nifi把数据从基础服务部提供的kafka数据写入到es;
  • 从cdh实时集群每一小时用hadoop distcp/spark同步数据到apache集群,以便小时报表使用;
  • 某些报表(销售结果等)要做到两小时更新的频率,相关源表也每两小时增量同步一次。

2016.02 - 2017.05 电商报表系统

项目描述

该系统包含离线和实时分析两部分业务,离线分析又分为用户行为数仓和业务数仓。数仓数据来源用户行为埋点数据和业务数据,该系统对活跃用户、新增用户、留存用户、沉默用户、本周回流用户、流失用户、最近连续三周活跃用户、最近七天内连续三天活跃、用户新鲜度、转化率、品牌复购率等指标分析。

技术实现:

  1. hadoop、Zookeeper、Kafka集群的搭建,Hive、Presto、Azkaban和Kafka Manager安装;
  2. 使用Flume采集日志信息到kafka集群中;
  3. 使用Flume、Sqoop将Kafka和Mysql中的数据到HDFS中;
  4. 将HDFS中的数据加载到数仓的ODS对应的表中;
  5. DWD层基于ODS层数据做一些清洗和降维操作;
  6. DWS 层以用户、商品、设备等作为维度组成跨主题宽表;
  7. ADS基于DWS数据生成各种报表数据;
  8. 将生成的报表数据通过Sqoop导入到Mysql中;
  9. 将数仓各层的处理写成脚本,通过Azkaban定时进行调度执行
  10. 使用Presto进行即席查询。