大数据左右手
大数据左右手
全部文章
大数据
Flink(5)
FlinkSQL(4)
大数据面试(2)
操蛋的人生(1)
机器学习(6)
面试(6)
归档
标签
去牛客网
登录
/
注册
大数据左右手的博客
技术如同手中的水有了生命似的,汇聚在了一起。总有适合你的那一篇。
全部文章
/ 大数据
(共11篇)
Spark-单value算子总结(图解和源码)
Spark-单value算子总结 1. map算子(改变结构就用map) 先看map函数 /** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U: Clas...
2021-09-16
0
576
Spark key-value类型算子总结(图解和源码)
Spark key-value类型算子 1. partitionBy()按照K重新分区 先看partitionBy函数 def partitionBy(partitioner: Partitioner): RDD[(K, V)] = self.withScope { if (keyC...
2021-09-16
0
772
RDD任务切分之Stage任务划分(图解和源码)
RDD任务切分中间分为:Application、Job、Stage和Task (1)Application:初始化一个SparkContext即生成一个Application; (2)Job:一个Action算子就会生成一个Job; (3)Stage:Stage等于宽依赖的个数加1; (4)...
2021-09-16
0
1027
你知道搜索是怎样的一个原理吗?对话形式通俗易懂
微信公众号:大数据左右手 专注于大数据技术,人工智能和编程语言个人既可码代码也可以码文字。欢迎转发与关注 前提 上一篇:Elasticsearch,从一个浪漫的故事开始(原理篇) 上一篇文章详细的介绍了Elasticsearch,属于纯文字,纯文字是比较乏味的。所有此篇开启新的方式去解读搜索...
2021-09-16
0
389
Elasticsearch,从一个浪漫的故事开始(原理篇)
微信公众号:大数据左右手 专注于大数据技术,人工智能和编程语言个人既可码代码也可以码文字。欢迎转发与关注 从一个浪漫的故事开始 许多年前,一个名叫Shay Banon的开发者,带着新婚妻子去伦敦生活,在得知妻子想从事厨师工作后,准备利用自己所学为妻子开发一个食谱搜索引擎,他开始使用Lucen...
2021-09-16
0
417
Flink的一致性保证
前言介绍 Flink的检查点和恢复机制定期的会保存应用程序状态的一致性检查点。在故障的情况下,应用程序的状态将会从最近一次完成的检查点恢复,并继续处理。尽管如此,可以使用检查点来重置应用程序的状态无法完全达到令人满意的一致性保证。相反,source和sink的连接器需要和Flink的检查点和恢复...
2021-09-16
0
916
Flink的状态与容错
Flink的状态与容错 本文主要运行到Flink以下内容 检查点机制(CheckPoint) 状态管理器(StateBackend) 状态周期(StateTtlConfig) 关系 首先要将state和checkpoint概念区分开,可以理解为checkpoint是...
2021-09-16
0
553
六千字长文:大数据框架(分区,分桶,分片),建议收藏
前言 在大数据分布式中,分区,分桶,分片是设计框架的重点。此篇就来总结各个框架。建议收藏 目录 Hive分区与分桶 ES分片 Kafka分区 HBase分区 Kudu分区 Hive Hive分区 是按照数据表的某列或者某些列分为多区,在hive存储上是hdfs文件,也就是文...
2021-09-16
0
616
大数据之分布式协调神器:Zookeeper选举
前言 分布式系统设计成主从节点主要是为了保障数据一致性,主从设计是一种最直观的数据一致性保障机制。 比如主从复制,主节点负责写,从节点负责读,提高读的性能。从节点定期通过心跳与主节点沟通,一旦主节点挂掉了,从节点马上接手主节点的任务。 但是主节点暂时失去响应,如瞬时负载过高,网...
2021-09-16
0
412
otter,阿里巴巴分布式数据库同步系统
微信公众号:大数据左右手 专注于大数据技术,人工智能和编程语言 个人既可码代码也可以码文字。欢迎转发与关注 otter官网介绍项目背景 otter文档地址 https://github.com/alibaba/otter/wiki otter项目地址 https://gith...
2021-09-16
0
785
首页
上一页
1
2
下一页
末页