牛客大数据入门菜鸡
牛客大数据入门菜鸡
全部文章
读书笔记
杂烩(1)
算法(1)
面试题(5)
项目(1)
归档
标签
去牛客网
登录
/
注册
牛客大数据萌新
混子
全部文章
/ 读书笔记
(共79篇)
Spark学习之路 (一)Spark初识
来自专栏
一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内...
2020-11-26
0
342
Flink 源码阅读笔记(2)- JobGraph 的生成
来自专栏
前面的文章我们介绍了 StreamGraph 的生成,这个实际上只对应 Flink 作业在逻辑上的执行计划图。Flink 会进一步对 StreamGraph 进行转换,得到另一个执行计划图,即 JobGraph。 JobVertex 在 StreamGraph 中,每一个算子(Operator) 对...
2020-11-26
0
797
JVM 完整深入解析
来自专栏
Java运行时数据区: Java虚拟机在执行Java程序的过程中会将其管理的内存划分为若干个不同的数据区域,这些区域有各自的用途、创建和销毁的时间,有些区域随虚拟机进程的启动而存在,有些区域则是依赖用户线程的启动和结束来建立和销毁。Java虚拟机所管理的内存包括以下几个运行时数据区域,如图: ...
2020-11-26
0
342
Flink 源码阅读笔记(1)- StreamGraph 的生成
来自专栏
在编写 Flink 的程序的时候,核心的要点是构造出数据处理的拓扑结构,即任务执行逻辑的 DAG。我们先来看一下 Flink 任务的拓扑在逻辑上是怎么保存的。 StreamExecutionEnvironmentStreamExecutionEnvironment 是 Flink 在流模式下任务执行...
2020-11-25
0
916
Flink的分布式快照(检查点算法)原理--基于Chandy-Lamport算法
来自专栏
检查点的两种实现:(1)检查点算法的简单实现–暂停应用,保存状态到检查点,在重新恢复应用(2)Flink基于检查点算法的优化实现–基于Chandy-Lamport算法的分布式快照,将检查点的保存和数据分开处理,不需要暂停整个应用,这里引入状态后端的概念。以下介绍flink的检查点算法:首先介绍一个概...
2020-11-18
0
1290
Flink- 检查点,保存点,与状态恢复
来自专栏
一致性检查点(consistent checkpoints) Flink的恢复机制基于应用状态的一致检查点。在有状态的流应用中,一个一致性检查点是:在所有tasks处理了一个(相同的)输入后,当前时间点每个task的state副本。在为application做一个一致性检查点时,遵循的一个基本算法步...
2020-11-17
0
531
flink原理
来自专栏
一、Flink 流处理简介1、Flink 是什么2、Flink全球热度3、Flink目前在国内企业的应用4、为什么要使用Flink5、哪些行业需要处理流数据6、传统数据处理架构7、流处理演变8、Flink主要特点9、Flink的其他特点10、Flink VS Spark Streaming二、Fli...
2020-11-17
1
821
Hive学习之路 (二十一)Hive 优化策略
来自专栏
一、Hadoop 框架计算特性1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等 U...
2020-11-11
0
424
Hive学习之路 (二十)Hive 执行过程实例分析
来自专栏
一、Hive 执行过程概述1、概述(1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduce ...
2020-11-11
0
513
Hive学习之路 (十九)Hive的数据倾斜
来自专栏
1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 回到顶部2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 回...
2020-11-11
1
609
首页
上一页
1
2
3
4
5
6
7
8
下一页
末页