第一章 Spark简介
1.为什么和Hadoop相比会选择Spark?
答:由于一些限制,Hadoop对一些工作的负载并不是最优选择,比如缺少对迭代的支持,中间数据需输出到硬盘存储,差生较高的延迟。Hadoop的约束更适合处理离线数据,在实时查询和迭代计算上存在着较大的不足。Spark是一个快速的,通用的大规模数据处理引擎。Spark拥有可伸缩,基于内存计算等特点,甚至可以直接读写Hadoop上任何格式的数据,进行批处理时更加高效,且拥有更低的延迟。
2.Spark的特点
快速(支持循环数据流和内存计算等),易用,通用,有效继承Hadoop。
3.Spark的应用场景
快速查询系统,实施日志采集处理(Spark Streaming),业务推荐系统,定制广告系统
4.Spark的重要扩展
支持结构化数据的Spark SQL,处理实施数据的Spark Streaming,用于机器学习的MLlib,用于图计算的GraphX,用于统计分析的SparkR。
第二章 Spark部署和运行
Spark部署主要包括Local模式部署,Standalone模式部署,YARN模式部署,Mesos模式部署。
在进行Spark编程之前,需要先进行Spark集群部署,目前的集群管理器主要包括后三种。
具体部署模式需要实际操作练习。