牛客大数据入门菜鸡
牛客大数据入门菜鸡
全部文章
读书笔记
杂烩(1)
算法(1)
面试题(5)
项目(1)
归档
标签
去牛客网
登录
/
注册
牛客大数据萌新
混子
全部文章
/ 读书笔记
(共79篇)
JAVA基础
来自专栏
Java概述 何为编程 编程就是让计算机为解决某个问题而使用某种程序设计语言编写程序代码,并最终得到结果的过程。 为了使计算机能够理解人的意图,人类就必须要将需解决的问题的思路、方法、和手段通过计算机能够理解的形式告诉计算机,使得计算机能够根据人的指令一步一步去工作,完成某种特定的...
2020-12-25
1
718
Flink 源码阅读笔记(19)- Flink SQL 中流表 Join 的实现
来自专栏
在使用 SQL 进行数据分析的过程中,关联查询是经常要使用到的操作。在传统的 OLTP 和 OLAP 领域中,关联查询的数据集都是有界的,因此可以依赖于缓存有界的数据集进行查询。但是在 Streaming SQL 中,针对 Stream Join Stream 的情况,由于关联查询的两侧都是连续无界...
2020-12-21
0
0
Flink 源码阅读笔记(18)- Flink SQL 中的流和动态表
来自专栏
SQL 和关系代数在设计之初就针对的是静态的数据。静态数据是有界的,因此可以很容易地和表(关系)进行映射。但是对于一个不断变化的实时数据流而言,数据是无边界不断更新的,在将 SQL 应用在流上的时候,势必需要考虑数据的更新问题。例如,对与聚合操作而言,随着新数据源源不断地到达,聚合的结果必然是需要不...
2020-12-21
0
0
Flink 源码阅读笔记(17)- Flink SQL 中的时间属性
来自专栏
在流计算中,时间属性承担了一个极其重要的作用,所有基于时间的操作,例如窗口操作,都需要正确获取时间信息。我们曾经在Flink 源码阅读笔记(12)- 时间、定时器和窗口这篇文章中分析过 Flink 内部时间属性、水位线等机制的具体实现。在这篇文章中,我们将介绍在 SQL 和 Table API 中时...
2020-12-18
0
0
Flink 源码阅读笔记(16)- Flink SQL 的元数据管理
来自专栏
为了使用 SQL,一个首先需要解决的是元数据管理的问题。元数据的管理包括表的元数据和 UDF 的元数据,这使得完全使用 SQL 语句来构建实时任务成为可能。 Catalog 和 CatalogManager 在 1.9 版本发布之前,Flink SQL 完全借助于 Calcite 的&n...
2020-12-18
0
0
Flink 源码阅读笔记(15)- Flink SQL 整体执行框架
来自专栏
在数据处理领域,无论是实时数据处理还是离线数据处理,使用 SQL 简化开发将会是未来的整体发展趋势。尽管 SQL 简化了使用的门槛,但是如何将 SQL 等价转换到现有的数据处理引擎中却并非易事,尤其是在流式数据处理框架中。 最近,Flink 发布了备受瞩目的 1.9 版本,由于阿里开源了其内部...
2020-12-17
0
0
Flink 源码阅读笔记(14)- Async I/O 的实现
来自专栏
在使用 Flink 处理实时数据流时,经常需要和外部系统进行交互。例如,在构建实时数据仓库的时候,通常需要将消息和外部维表进行关联,以获得额外的维度数据。由于外部系统的响应时间和网络延迟可能会很高,如果采用同步调用的方式,那么外部调用的高延迟势必会影响到系统的吞吐量,进而成为系统的瓶颈。这种情况下,...
2020-12-16
0
0
Flink 源码阅读笔记(13)- 双流操作的实现
来自专栏
在使用 Flink 进行实时数据处理时,一个常用的场景是对两个流的数据进行关联。这篇文章中我们将对双流操作的底层实现机制进行分析。 Window Join and CoGroup Window Join 操作,顾名思义,是基于时间窗口对两个流进行关联操作。相比于 Join 操作, Co...
2020-12-15
0
0
Flink 源码阅读笔记(12)- 时间、定时器和窗口
来自专栏
流式数据处理中,很多操作要依赖于时间属性进行,因此时间属性也是流式引擎能够保证准确处理数据的基石。在这篇文章中,我们将对 Flink 中时间属性和窗口的实现逻辑进行分析。 概览Google 2015 年发表的 The Dataflow Model 论文是流式处理领域非常具有指导意义的一篇论文,对于大...
2020-12-14
0
0
Flink 源码阅读笔记(11)- Checkpoint 机制和状态恢复
来自专栏
在上一篇文章中,我们对 Flink 状态管理相关的代码逻辑进行了分析,但为了实现任务的故障恢复以及数据一致性的效果,还需要借助于检查点(Checkpoint)机制。 简单地说,Checkpoint 是一种分布式快照:在某一时刻,对一个 Flink 作业所有的 task 做一个快照(snapshot)...
2020-12-09
0
0
首页
上一页
1
2
3
4
5
6
7
8
下一页
末页