上一课

分类

django入门到进阶(3) docker(6) Hadoop系列(2) Hbase(1) java基础篇(9) java高级部分(4) python之路(6) python数据分析/数据挖掘(4) Redis系列(2) 大数据(6) 并发编程(4) 未归档(9) 表单验证插件Tyrion(1)

/ 注册

全部文章（共2篇）

Spark内部执行机制

Spark内部执行机制 1.1 内部执行流程　　如下图1为分布式集群上spark应用程序的一般执行框架。主要由sparkcontext（spark上下文）、cluster manager(资源管理器)和▪executor（单个节点的执行进程）。其中cluster manager负责整个集...

spark

2019-04-13

0 286

Spark累加器(Accumulator)陷阱及解决办法

累加器（accumulator）是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。 Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例...

spark

2019-04-22

0 442