牛客大数据入门菜鸡
牛客大数据入门菜鸡
全部文章
分类
杂烩(1)
算法(1)
读书笔记(79)
面试题(5)
项目(1)
归档
标签
去牛客网
登录
/
注册
牛客大数据萌新
混子
TA的专栏
84篇文章
0人订阅
大数据
84篇文章
0人学习
Flink 源码阅读笔记(21)- Flink JobManager HA 机制的扩展与实现
Redis
全部文章
(共86篇)
Flink 源码阅读笔记(17)- Flink SQL 中的时间属性
来自专栏
在流计算中,时间属性承担了一个极其重要的作用,所有基于时间的操作,例如窗口操作,都需要正确获取时间信息。我们曾经在Flink 源码阅读笔记(12)- 时间、定时器和窗口这篇文章中分析过 Flink 内部时间属性、水位线等机制的具体实现。在这篇文章中,我们将介绍在 SQL 和 Table API 中时...
2020-12-18
0
1846
Flink 源码阅读笔记(16)- Flink SQL 的元数据管理
来自专栏
为了使用 SQL,一个首先需要解决的是元数据管理的问题。元数据的管理包括表的元数据和 UDF 的元数据,这使得完全使用 SQL 语句来构建实时任务成为可能。 Catalog 和 CatalogManager 在 1.9 版本发布之前,Flink SQL 完全借助于 Calcite 的&n...
2020-12-18
0
832
Flink 源码阅读笔记(15)- Flink SQL 整体执行框架
来自专栏
在数据处理领域,无论是实时数据处理还是离线数据处理,使用 SQL 简化开发将会是未来的整体发展趋势。尽管 SQL 简化了使用的门槛,但是如何将 SQL 等价转换到现有的数据处理引擎中却并非易事,尤其是在流式数据处理框架中。 最近,Flink 发布了备受瞩目的 1.9 版本,由于阿里开源了其内部...
2020-12-17
0
692
Flink 源码阅读笔记(14)- Async I/O 的实现
来自专栏
在使用 Flink 处理实时数据流时,经常需要和外部系统进行交互。例如,在构建实时数据仓库的时候,通常需要将消息和外部维表进行关联,以获得额外的维度数据。由于外部系统的响应时间和网络延迟可能会很高,如果采用同步调用的方式,那么外部调用的高延迟势必会影响到系统的吞吐量,进而成为系统的瓶颈。这种情况下,...
2020-12-16
0
612
Flink 源码阅读笔记(13)- 双流操作的实现
来自专栏
在使用 Flink 进行实时数据处理时,一个常用的场景是对两个流的数据进行关联。这篇文章中我们将对双流操作的底层实现机制进行分析。 Window Join and CoGroup Window Join 操作,顾名思义,是基于时间窗口对两个流进行关联操作。相比于 Join 操作, Co...
2020-12-15
0
624
Flink 源码阅读笔记(12)- 时间、定时器和窗口
来自专栏
流式数据处理中,很多操作要依赖于时间属性进行,因此时间属性也是流式引擎能够保证准确处理数据的基石。在这篇文章中,我们将对 Flink 中时间属性和窗口的实现逻辑进行分析。 概览Google 2015 年发表的 The Dataflow Model 论文是流式处理领域非常具有指导意义的一篇论文,对于大...
2020-12-14
0
996
Flink 源码阅读笔记(11)- Checkpoint 机制和状态恢复
来自专栏
在上一篇文章中,我们对 Flink 状态管理相关的代码逻辑进行了分析,但为了实现任务的故障恢复以及数据一致性的效果,还需要借助于检查点(Checkpoint)机制。 简单地说,Checkpoint 是一种分布式快照:在某一时刻,对一个 Flink 作业所有的 task 做一个快照(snapshot)...
2020-12-09
0
1079
Flink 源码阅读笔记(10)- State 管理
来自专栏
状态 State 是 Flink 中用于构建复杂逻辑的重要组件。本文将从源码角度来分析 Flink 的状态管理是如何实现的。状态 (State)需要配合检查点(Checkpoint)机制来保证 Flink 作业失败后能正确地进行错误恢复。由于Flink的 State 和 Checkpoint 机制相...
2020-12-08
0
740
Flink 的状态管理和检查点机制
来自专栏
从状态说起状态 (State) 是 Flink 程序中构建复杂逻辑的基本组件。流处理中的状态可以视作算子上的记忆能力,可以保留和已经处理完的输入相关的信息,并对后续输入的处理造成影响。与之相反,流处理中的无状态操作只会考虑到当前处理的元素,不会受到处理完毕的元素的影响,也不会影响到后续待处理的元素。...
2020-12-08
0
530
Flink 源码阅读笔记(9)- Task 的生命周期
来自专栏
一个 Flink Job 提交到集群中运行时,会被调度为不同的 Task。在前面的文章中,我们已经介绍了 Flink 如何根据用户的编写的程序生成调度用的执行图,如何为 Task 分配计算资源,以及 Task 之间如何进行数据交换。在这篇文章中,我们将跟踪一个 Task 的完整的生命周期,进一步加深...
2020-12-07
0
727
首页
上一页
1
2
3
4
5
6
7
8
9
下一页
末页