牛客大数据入门菜鸡
牛客大数据入门菜鸡
全部文章
分类
杂烩(1)
算法(1)
读书笔记(79)
面试题(5)
项目(1)
归档
标签
去牛客网
登录
/
注册
牛客大数据萌新
混子
TA的专栏
84篇文章
0人订阅
大数据
84篇文章
0人学习
Flink 源码阅读笔记(21)- Flink JobManager HA 机制的扩展与实现
Redis
全部文章
(共86篇)
Spark学习之路 (十七)Spark分区
来自专栏
一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 数据分...
2020-11-27
0
0
Spark学习之路 (十六)SparkCore的源码解读(二)spark-submit提交脚本
来自专栏
一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spark-submit一步步深入进去看看任务提交的整体流程,首先看一下整体的流程概要图: 二、源码解读2.1 spark-submit # -z是检查后面变量是否为空(空则真) she...
2020-11-27
0
0
Spark学习之路 (十五)SparkCore的源码解读(一)启动脚本
来自专栏
一、启动脚本分析独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。 启动master和slaves主要是执行/us...
2020-11-27
0
0
Spark学习之路 (十四)SparkCore的调优之资源调优JVM的GC垃圾收集器
来自专栏
一、概述垃圾收集 Garbage Collection 通常被称为“GC”,它诞生于1960年 MIT 的 Lisp 语言,经过半个多世纪,目前已经十分成熟了。 jvm 中,程序计数器、虚拟机栈、本地方法栈都是随线程而生随线程而灭,栈帧随着方法的进入和退出做入栈和出栈操作,实现了自动的内存清理,因此...
2020-11-27
0
0
Spark学习之路 (十三)SparkCore的调优之资源调优JVM的基本架构
来自专栏
一、JVM的结构图1.1 Java内存结构 JVM内存结构主要有三大块:堆内存、方法区和栈。 堆内存是JVM中最大的一块由年轻代和老年代组成,而年轻代内存又被分成三部分,Eden空间、From Survivor空间、To Survivor空间,默认情况下年轻代按照8:1:1的比例来分配; 方法区存...
2020-11-27
0
0
Spark学习之路 (十二)SparkCore的调优之资源调优
来自专栏
一、概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用...
2020-11-27
0
0
Spark学习之路 (十一)SparkCore的调优之Spark内存模型
来自专栏
一、概述Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 ...
2020-11-27
0
0
Spark学习之路 (十)SparkCore的调优之Shuffle调优
来自专栏
一、概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜...
2020-11-27
0
0
Spark学习之路 (九)SparkCore的调优之数据倾斜调优
来自专栏
数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如...
2020-11-27
0
0
Flink 源码阅读笔记(3)- ExecutionGraph 的生成
来自专栏
我们前面已经分析过 StreamGraph, JobGraph 的生成过程,这两个执行图都是在 client 端生成的。接下来我们将把目光头投向 Flink Job 运行时调度层核心的执行图 - ExecutionGraph。 和 StreamGraph 以及 JobGraph 不同的是,Execu...
2020-11-27
0
0
首页
上一页
1
2
3
4
5
6
7
8
9
下一页
末页