小水滴真的是太可爱了吧

【Lambda大数据开发】大数据之Spark Sql（一）：Spark SQL 概述、历史、优势、

【Lambda...

linux(1) mysql(1) python(2) 【Excel】(1) 【Linux基础与高级】(49) 【PhotoShop】(4) 【Python基础与提高】(47) 【Python工程师面试题】(6) 【Web后端】(19) 【产品经理专栏】(2) 【前端】(95) 【力扣面试刷题】(12) 【吴恩达机器学习】(34) 【吴恩达深度学习】(31) 【小问题解决】(27) 【数据产品】(2) 【数据分析与挖掘】(105) 【数据分析岗位面试】(25) 【数据库】(62) 【数据结构与算法专栏】(45) 【新冠病毒】(2) 【机器学习与深度学习】(165) 【爬虫】(68) 【网络基础与高级】(57) 【面向对象】(14) 产品技能(1) 数据挖掘竞赛(8) 题解(1)

/ 注册

大数据之Spark Sql（一）：Spark SQL 概述、历史、优势、

1214 浏览 0 回复 2020-09-22

小水滴真的是太可爱了吧

+关注

文章目录

课程目标
- 1、Spark SQL 概述

课程目标

说出Spark Sql的相关概念
说出DataFrame与RDD的联系
独立实现Spark Sql对JSON数据的处理
独立实现Spark Sql进行数据清洗

1、Spark SQL 概述

Spark SQL概念

Spark SQL is Apache Spark’s module for working with structured data.
- 它是spark中用于处理结构化数据的一个模块

Spark SQL历史

Hive是目前大数据领域，事实上的数据仓库标准。

Shark：shark底层使用spark的基于内存的计算模型，从而让性能比Hive提升了数倍到上百倍。
底层很多东西还是依赖于Hive，修改了内存管理、物理计划、执行三个模块
2014年6月1日的时候，Spark宣布了不再开发Shark，全面转向Spark SQL的开发

Spark SQL优势

Write Less Code

Performance

python操作RDD，转换为可执行代码，运行在java虚拟机，涉及两个不同语言引擎之间的切换，进行进程间通信很耗费性能。

DataFrame

是RDD为基础的分布式数据集，类似于传统关系型数据库的二维表，dataframe记录了对应列的名称和类型
dataFrame引入schema和off-heap(使用操作系统层面上的内存)
- 1、解决了RDD的缺点
- 序列化和反序列化开销大
- 频繁的创建和销毁对象造成大量的GC
- 2、丢失了RDD的优点
- RDD编译时进行类型检查
- RDD具有面向对象编程的特性

用scala/python编写的RDD比Spark SQL编写转换的RDD慢，涉及到执行计划

CatalystOptimizer：Catalyst优化器
ProjectTungsten：钨丝计划，为了提高RDD的效率而制定的计划
Code gen：代码生成器

直接编写RDD也可以自实现优化代码，但是远不及SparkSQL前面的优化操作后转换的RDD效率高，快1倍左右

优化引擎：类似mysql等关系型数据库基于成本的优化器

首先执行逻辑执行计划，然后转换为物理执行计划(选择成本最小的)，通过Code Generation最终生成为RDD

Language-independent API

用任何语言编写生成的RDD都一样，而使用spark-core编写的RDD，不同的语言生成不同的RDD
Schema

结构化数据，可以直接看出数据的详情

在RDD中无法看出，解释性不强，无法告诉引擎信息，没法详细优化。

**为什么要学习sparksql **

sparksql特性

1、易整合
2、统一的数据源访问
3、兼容hive
4、提供了标准的数据库连接（jdbc/odbc）

举报

收藏

赞

评论加载中...