Melo丶
Melo丶
全部文章
spark
Git(1)
LeetCode(76)
MySQL(1)
Python知识点(8)
sklearn(1)
Tensorflow(5)
数据挖掘(1)
爬虫(1)
算法和数据结构(143)
归档
标签
去牛客网
登录
/
注册
Melo都会点什么
北邮本硕,算法转开发
全部文章
/ spark
(共15篇)
【Python3实战Spark大数据分析及调度】第3章 Spark Core核心RDD
第3章 Spark Core核心RDD 大部分截图来自于官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html RDD源码:源码git地址 RDD五大特性: 1. A list of partitions RDD是...
2020-09-18
0
494
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
第4章 Spark Core RDD编程 常用的Transformation算子 sortByKey union distinct 结果就是partition中少了一个1,其他不变 join,需要K-V类型的RDD 普通的join就是inner join,得到两者都有的 ...
2020-09-18
0
494
《Spark技术内幕》第三章RDD实现详解
第三章 RDD实现详解 3.1 概述 Spark的目标是为基于工作集的应用(即多个并行操作重用中间结果的应用)提供抽象,同时保持MapReduce及相关模型的优势特性。 即自动容错、位置感知性和可伸缩性。 RDD比数据流模型更容易编程,同时基于工作集的计算也具有良好的描述能力。 在这些模型中...
2020-09-18
0
579
【Python3实战Spark大数据分析及调度】第5章 Spark运行模式
第五章 Spark运行模式 PySpark实战之运行模式 官方submit文档:Submitting Applications pyspark 与 spark-submit中的参数列表是一样的 local模式下执行py脚本流程 standalone下提交脚本流程 yarn,不需...
2020-09-18
0
646
《Spark技术内幕》第四章Scheduler 模块详解
Scheduler 模块详解 4.1 模块概述 4.1.1 整体架构 任务调度模块主要包含两大部分: 1.DAGScheduler 2.TaskScheduler 他们负责将用户提交的计算任务按照DAG划分为不同的阶段并且将不同阶段的计算任务提交到集群进行最终的计算。 整...
2020-09-18
0
614
《Spark技术内幕》第五章Deploy模块详解
Deploy模块详解 Spark的Cluster Manager有以下几种部署模式:Standalone、Mesos、YARN、EC2、Local。 Deploy模块是spark standalone的分布式框架,其采用master/slave架构。 5.1Spark运行模式概述 在Spar...
2020-09-18
0
584
《Spark技术内幕》第六章Executor模块详解
Executor模块详解 Executor模块负责运行Task计算任务,并将结果会传到Driver。Spark支持多种资源调度框架,这些资源框架在为计算任务分配资源后,最终都会使用Executor模块完成最终的计算。 每个Spark的Application都是从SparkContext开始的,他...
2020-09-18
0
528
《Spark技术内幕》第七章Shuffle模块详解
Shuffle模块详解 Shuffle翻译成中文就是洗牌,之所以需要Shuffle,还是因为具有某种共同特征的一类数据需要最终汇聚(aggregate)到一个计算节点上进行计算。这些数据分布在各个存储节点上,并且由不同节点的计算单元处理。 一般来说,每个Task处理的数据可以完全载入内存(如果不...
2020-09-18
0
1130
《Spark技术内幕》第八章Storage模块详解
Storage模块详解 Storage模块负责管理Spark计算过程中产生的数据,包括基于Disk的和基于Memory的。 用户在实际编程中,面对的是RDD,可以将RDD的数据通过cache持久化,持久化的动作都是由Storage模块完成的,包括Shuffle过程中的数据,也都是由Storage...
2020-09-18
0
721
【Python3实战Spark大数据分析及调度】第6章 Spark Core进阶
第六章 Spark Core进阶 Spark核心概述 1 Application = 1 Driver + n Executors Driver : 用来创建SparkContext和执行袋中的main方法 Cluster Manager : 为集群上的任务分配资源(包括CPU、内存等...
2020-09-18
0
457
首页
上一页
1
2
下一页
末页