牛客大数据入门菜鸡
牛客大数据入门菜鸡
全部文章
分类
杂烩(1)
算法(1)
读书笔记(79)
面试题(5)
项目(1)
归档
标签
去牛客网
登录
/
注册
牛客大数据萌新
混子
TA的专栏
84篇文章
0人订阅
大数据
84篇文章
0人学习
Flink 源码阅读笔记(21)- Flink JobManager HA 机制的扩展与实现
Redis
全部文章
(共86篇)
Flink 源码阅读笔记(1)- StreamGraph 的生成
来自专栏
在编写 Flink 的程序的时候,核心的要点是构造出数据处理的拓扑结构,即任务执行逻辑的 DAG。我们先来看一下 Flink 任务的拓扑在逻辑上是怎么保存的。 StreamExecutionEnvironmentStreamExecutionEnvironment 是 Flink 在流模式下任务执行...
2020-11-25
0
0
Flink的分布式快照(检查点算法)原理--基于Chandy-Lamport算法
来自专栏
检查点的两种实现:(1)检查点算法的简单实现–暂停应用,保存状态到检查点,在重新恢复应用(2)Flink基于检查点算法的优化实现–基于Chandy-Lamport算法的分布式快照,将检查点的保存和数据分开处理,不需要暂停整个应用,这里引入状态后端的概念。以下介绍flink的检查点算法:首先介绍一个概...
2020-11-18
0
0
Flink- 检查点,保存点,与状态恢复
来自专栏
一致性检查点(consistent checkpoints) Flink的恢复机制基于应用状态的一致检查点。在有状态的流应用中,一个一致性检查点是:在所有tasks处理了一个(相同的)输入后,当前时间点每个task的state副本。在为application做一个一致性检查点时,遵循的一个基本算法步...
2020-11-17
0
751
flink原理
来自专栏
一、Flink 流处理简介1、Flink 是什么2、Flink全球热度3、Flink目前在国内企业的应用4、为什么要使用Flink5、哪些行业需要处理流数据6、传统数据处理架构7、流处理演变8、Flink主要特点9、Flink的其他特点10、Flink VS Spark Streaming二、Fli...
2020-11-17
1
958
Hive学习之路 (二十一)Hive 优化策略
来自专栏
一、Hadoop 框架计算特性1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等 U...
2020-11-11
0
499
Hive学习之路 (二十)Hive 执行过程实例分析
来自专栏
一、Hive 执行过程概述1、概述(1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduce ...
2020-11-11
0
0
Hive学习之路 (十九)Hive的数据倾斜
来自专栏
1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 回到顶部2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 回...
2020-11-11
1
684
Hive学习之路 (十八)Hive的Shell操作
来自专栏
一、Hive的命令行1、Hive支持的一些命令Command Description quit Use quit or exit to leave the interactive shell. set key=value Use this to set value of particular con...
2020-11-11
0
0
Hive学习之路 (十七)Hive分析窗口函数(五) GROUPING SETS、CUBE和ROLLUP
来自专栏
数据准备数据格式复制代码2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-03-12,cookie72015-04,2015-04-12,cookie32015-04,2015-04-13,cookie22015-04,...
2020-11-11
0
558
Hive学习之路 (十六)Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE
来自专栏
数据准备数据格式cookie4.txt 复制代码cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie1,2015-04-10 10:50:05,u...
2020-11-11
0
0
首页
上一页
1
2
3
4
5
6
7
8
9
下一页
末页