1

  1. 熟练掌握Scala编程,Java基础开发知识;
  2. 理解Spark的运行工作机制,掌握Spark任务的执行流程,具有一定的Spark调优经验;
  3. 理解Hadoop的分布式文件系统HDFS的整体运行机制;
  4. 熟悉SparkStream与Storm实时处理流程,理解其工作原理;掌握MapReduce的工作原理及程序运行的生命周期;
  5. 熟练使用Hive窗口函数,了解Hive的运行机制;熟悉Hive中内部表、外部表、分桶表的使用,熟悉 Hql 语句;
  6. 熟练使用Redis非关系型数据库,MySQL关系型数据库;
  7. 熟练使用Flume进行多种数据源数据采集以及数据的复杂流动(多级流动、扇入和扇出等),自定义Source实现日志采集过程中的偏移量维护;
  8. 掌握Hbase框架原理,数据存储模型;
  9. 熟练使用Spark SQL进行数据处理、查询、统计;
  10. 熟练掌握Linux常用命令,可以编写简单的shell脚本;
  11. 熟悉Zookeeper分布式集群协调管理的功能以及一致性原理及集群搭建,了解Zookeeper的主从选举机制;
  12. 熟悉Kafka分布式消息队列的消息处理模式和分区机制;
  13. 了解CDH、HDP;
  14. 了解Python语言;

2

1.理解Hadoop的分布式文件系统,掌握mapreduce原理。 2.熟悉Hive的工作原理。 3.熟练使用Sqoop工具。 4.熟悉分布式消息系统Kafka集群搭建,熟练使用Spark Streaming与Kafka的整合。 6.熟悉Flume核心组成结构,自定义Source及Flume自定义拦截器。 7.掌握kafka工作原理,优化自行维护offset避免重复消费。 8.熟悉分布式协调服务Zookeeper的工作机制,。 9.熟练使用Spark分布式编程框架。 10.熟悉MySql、Oracle。 11.熟悉常用的Linux的shell命令,能在Linux系统下编写脚本。 12.可以使用SpringBoot,Spring,Mybatis等常用开源框架。 13.掌握JavaScript,HTML, js面向对象编程, Echarts。 14.学习过python语言的基础知识,数据分析相关的常用库。 15.了解过PyTorch网络爬虫的知识。 16.使用过MATLAB,Tableau,kettle工具。 17.会使用Cloudera Manager,Hue,azkaban。

3

  1. 熟悉数据仓库基础理论及数据开发具体流程,能独立进行数据仓库整合,建模与开发,对维度表和事实表进行处理;
  2. 熟悉ETL过程,能熟练运用kettle工具进行数据抽取、数据清洗和转换、数据加载;
  3. 熟练使用SQL语言,掌握Oracle、MySQL等数据库系统的使用,有较好的SQL性能调优经验;
  4. 掌握了数据库基础知识,具备良好的逻辑思维,文档写作能力。
  5. 对HADOOP生态系统有基础了解,对hadoop,sqoop,hive有一定的了解;
  6. 了解Jenkins持续集成工具,能够在Jenkins上实现定时ETL抽取数据;
  7. 能够使用Power bi,Tableau 工具进行报表的可视化开发;
  8. 熟悉PowerDesigner建模工具 ,熟悉svn版本管理工具,SQLyog,secureCTR工具;
  9. 能基于数据集市帮助业务人员简单分析业务,并协助其提升业绩;