选择20个,填空10个,判断10个,简答6个,程序补全2个
第一章 概述
- 大数据概念 ;4v
- 大数据的影响,对思维方式的影响p11
- 大数据关键技术,四个阶段
- 大数据计算模式
- 大数据与云计算物联网的关系
第二章Hadoop
- hadoop简介
看远分布式平台基于java开发的,核心HDFS,mapr - hadoop的特性
- Hadoop的生态 ,各组件的实现的功能
- hadoop简单的命令使用:启动,停止。。。。
第三章HDFS
- 分布式文件系统的结构P43图,主要主从结构,多副本存储
- . HDFS的实现目标 P45
- 相关概念:块,名称节点,数据节点,第二名称节点各自干什莫的
- hdfs的体系结构:命名空间,通信协议
- <mark>存储原理</mark>
- <mark>读写过程</mark>
- 编程:shell命令的简单使用
第四章Hbase
- hbase与传统关系数据库的对比各自的优缺点
- 数据模型,相关概念,四维坐标定位数据
- <mark>实现原理</mark>
- <mark>运行机制</mark>
- 编程:shell命令的简单使用
第五章Nosql
- nosql not only sql
- nosql的特点
- 与关系数据库的比较
- 四大类型:特点,有缺点,典型软件
- 三大基石
第六章云数据库
- 概念,特性,典型产品
第七章MapReduce
- 设计理念:计算向数据靠拢
- map函数以及reduce输入输出格式
map输入<k,v>输出list(<k,v>,<k,v>)
reduce输入<k,kist(v,v,v)> 输出:<k,v> - 工作流程:
核心思想:分而治之
执行阶段
shuffle的过程 区分合并及归并 - <mark>wordCount实例 ,执行过程示意图会画</mark>
- <mark>编程:读懂JAVAAPI的程序</mark>要求补全程序,最少10分
第九章Spark
- Spark的主要特点
- Scala语言是多范式编程语言,会使用SCALA的简单语句
- Spark与hadoop的对比
- <mark>Spark生态系统:大数据处理的三种类型,各组件的功能,</mark>
- <mark>运行架构</mark>
- <mark>RDD的编程,执行过程示意图</mark> 最少10分
- 编程 ::shell命令的简单使用
第十章流计算
- 数据类型:静态数据,流数据
- 针对不同类型数据的处理:批量计算,实时计算,流计算
- 流计算的特征:火车站候车室实例
- 流计算与hadoop
- 流计算框架
- 流计算处理流程的三个阶段
- Storm简单理解与Storm的比较
第十一章图计算
- Pregel及其计算模型
第十二章可视化
- 可视化重要作用四个
- 典型工具