1.1 什么是Spark？

Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。
2013年Spark加入Apache软件基金会最重要的三大分布式计算系统开源项目之一（hadoop、Spark、Storm）
Spark、206个节点、23分钟、100TB数据 2014年打破了Hadoop保持的基准排序记录
Hadoop、2000个节点、72分钟、100TB数据
Spark用十分之一的计算资源获得了比Hadoop快3倍的速度
Spark的特点
运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark、shell进行交互式编程
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源
Spark简介：
Scala是一门现代的多范式编程语言
函数式语言面向对象编程
可以运行与java平台上
Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统
Scala语法简洁，能提供优雅的API
Scala兼容Java，运行速度快且能融合到Hadoop生态圈中
Scala的优势是提供了REPL交互式解释器，提高程序开发效率

Spark生态系统：
在实际应用中，大数据处理主要包括以下三个类型
复杂的批量数据处理
通常时间跨度在数十分钟到数小时之间

基于历史数据的交互式查询：
通常时间跨度在数十秒到数分钟之间到数秒之间

基于实时数据流的数据处理
通常时间跨度在数百毫秒到

当同时存在以上三种场景时，就需要同时部署三种不同的软件

复杂的批量数据处理（MapReduce）基于历史数据的交互式查询（Cloudera Impala）基于实时数据流的数据处理（Storm）

问题
不同场景之间输入输出数据无法做到无缝共享，通常需要进行数据格式的转换
不同软件需要不同的开发和维护团队，带来了较高的使用成本
比较难以对同一个集群中的各个系统进行统一的资源协调和分配

Spark设计
遵循“一个软件栈满足不同应用场景”的理念，逐渐形成了一套完整的生态系统
图片说明
Spark可以不是在资源管理器YARN之上，提供一站式的大数据解决方案
Spark所提供的生态系统足以应对上述三种场景即同时支持批处理、交互式查询和流数据处理
Spark生态系统已经成为伯克利数据分析软件栈BDAS的重要组成部分
Spark Core提供内存计算
Spark SQL提供交互式查询分析
Spark Streaming提供流计算功能
MLLIb提供机器学习算法库的组件
GraphX提供图计算
图片说明

官网：http://spark.apache.org
图片说明
Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目，项目是用Scala进行编写的。
目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目，Spark是基于内存计算的大数据并行计算框架。除了扩展广泛使用的MapReduce计算模型，而且高效的支持更多计算模式，包括交互式查询和流处理。Spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark的这种特性还大大减轻了原先需要对各种平台分别管理的负担。
大一统的软件栈，各个组件关系密切并且可以相互调用，这种设计有几个好处：1、软件栈中所有的程序库和高级组件都可以从下层的改进中获益。2、运行整个软件站的单价变小了。不需要运行5到10套独立的软件系统了，一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。3、能够构建出无缝整合不同处理模型的应用。
Spark的内置项目如下：
图片说明
Spark Core:实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。SparkCore中还包括了对弹性分布式数据集的API定义
Spark SQL：是Spark用来操作结构化数据的程序包。通过SparkSQL，我们可以使用SQL或者Apache Hive版本的SQL方言（HQL）来查询数据。SparkSQL支持多种数据源，比如Hive表、Parquet以及JSON等。
Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的RDD API高度对应。
Spark MLlib：提供常见的机器学习（ML）功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
集群管理器： Spark设计为可以高效的在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理上运行，包括HadoopYarn、Apache Mesos，以及Spark 自带的一个简易调度器，叫做独立调度器。
Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯京东、携程、优酷土豆。当前百度的Spark已用于凤巢、大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。

1.2 Spark特点

快
与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。计算的中间结果是存在内存中的
易用
Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便的在这些shell中使用Spark集群来验证解决问题的方法。
图片说明
通用
Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本
兼容性
Spark可以非常方便的与其他的开源产品进行融合。比如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有的Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可以非常容易的部署和使用Spark。此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。
图片说明

1.3 Spark的用户和用途

我们大致把Spark的用例分为两类：数据科学应用和数据处理应用。也就对应的有两种人群：数据科学家和工程师。
数据科学任务
主要是数据分析领域，数据科学家要负责分析数据并建模，具备SQL、统计、预测建模（机器学习）等方面的经验，以及一定的shiyongPython、Matlab或R语言进行编程的能力。
数据处理应用工程师定义为使用Spark开发生产环境中的数据处理应用的软件开发者，通过对接Spark的API实现对处理的处理和转换等任务。