牛客大数据入门菜鸡
牛客大数据入门菜鸡
全部文章
分类
杂烩(1)
算法(1)
读书笔记(79)
面试题(5)
项目(1)
归档
标签
去牛客网
登录
/
注册
牛客大数据萌新
混子
TA的专栏
84篇文章
0人订阅
大数据
84篇文章
0人学习
Flink 源码阅读笔记(21)- Flink JobManager HA 机制的扩展与实现
Redis
全部文章
(共86篇)
Flink 源码阅读笔记(8)- Task 之间的数据传输
来自专栏
在这篇文章中,我们将探讨一个 Flink 作业在实际运行时,不同的 Task 之间是如何进行数据交换的。由于不同的 Task 可能并非运行在同一个 TaskManager 中,因而数据传输的过程中必然涉及到网络通信,文中也会对 Flink 的网络栈的实现,包括反压机制等,进行分析。 概览Flink ...
2020-12-04
0
0
Flink 源码阅读笔记(7)- 内存管理
来自专栏
基于 JVM 的大数据处理分析引擎面临的一个问题是,为了高效地处理数据,有大量的数据需要保存在内存中。直接使用 JVM 堆内存来管理这些数据对象是最简单的实现,但是这样会导致一系列问题:首先,在有大量的数据对象不停地创建和失效的情况下,要正常地管理和控制堆内存并非易事,很容易引发 OOM 问题;其次...
2020-12-03
0
0
Flink 源码阅读笔记(6)- 计算资源管理
来自专栏
在 Flink 中,计算资源的是以 Slot 作为基本单位进行分配的。本文将对 Flink 中计算资源的管理机制加以分析。 Task Slot 的基本概念我们在前面的文章中了解了 Flink 集群的启动流程。在 Flink 集群中,每个 TaskManager 都是一个单独的 JVM 进程(非 Mi...
2020-12-02
0
0
Flink 源码阅读笔记(5)- 集群启动流程
来自专栏
在 Flink 1.5.0 版本发布的时候,Flink 迎来了一个重要的改进:根据 FLIP-6 重构了 Flink 集群部署和任务处理模型,以便更好地和管理资源和调度任务,更优雅地和 Yarn、 Mesos、Kubernetes 等框架进行集成。 在这篇文章中,我们将对 Flink 集群的启动流程...
2020-12-01
0
0
Flink 源码阅读笔记(4)- RPC
来自专栏
作为一个分布式系统,Flink 内部不同组件之间通信依赖于 RPC 机制。这篇文章将对 Flink 的 RPC 框架加以分析。 例子先来看一个简单的例子,了解 Flink 内部的 RPC 框架是如何使用的。 public class RpcTest { private static fina...
2020-11-30
0
0
Spark学习之路 (二十三)SparkStreaming的官方文档
来自专栏
一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程2.1 图解说明 2.2 文字解说1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,...
2020-11-27
0
0
Spark学习之路 (二十一)Dataset实现原理分析-Dataframe原理介绍和Dataset的对比
来自专栏
Dataframe原理要点 Spark SQL引入了一个名为DataFrame的表格函数数据抽象。设计它的目的在于:简化Spark应用程序的开发。这样就可以在Spark基础架构上处理大量结构化表格数据。 DataFrame是一种数据抽象或特定于域的语言(domain-specific lang...
2020-11-27
0
715
Spark学习之路 (二十)SparkSQL的元数据
来自专栏
一、概述SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说,SparkSQL的数据仓库在建立在Hive之上实现的。我们要用SparkSQL去构建数...
2020-11-27
0
568
Spark学习之路 (十九)SparkSQL的自定义函数UDF
来自专栏
在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在...
2020-11-27
0
0
Spark学习之路 (十八)SparkSQL简单使用
来自专栏
一、SparkSQL的进化之路1.0以前: Shark1.1.x开始: SparkSQL(只是测试性的) SQL1.3.x: SparkSQL(正式版本)+Dataframe1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试...
2020-11-27
0
0
首页
上一页
1
2
3
4
5
6
7
8
9
下一页
末页