上一课
上一课
全部文章
大数据
django入门到进阶(3)
docker(6)
Hadoop系列(2)
Hbase(1)
java基础篇(9)
java高级部分(4)
python之路(6)
python数据分析/数据挖掘(4)
Redis系列(2)
并发编程(4)
未归档(9)
表单验证插件Tyrion(1)
归档
标签
去牛客网
登录
/
注册
woshishui我是谁
全部文章
/ 大数据
(共6篇)
Debezium监控MySQL,PGsql,SQLServer
1. Debezium简介 Debezium 是一个分布式平台,它将现有的数据库转换为事件流,应用程序消费事件流,就可以知道数据库中的每一个行级更改,并立即做出响应。Debezium 构建在 Apache Kafka 之上,并提供 Kafka 连接器来监视特定的数据库。在介绍 Debezium 之...
Debezium
Debezium
2021-07-09
1
615
python生成数据仓库日期维度表
设计一张日期维度表 表名称:DIM_PUB_DATE 具体属性值: <colgroup> </colgroup> 字段名称 ...
hive
数仓
2021-07-09
0
906
Flink-cdc实时读postgresql
由于公司业务需要,需要实时同步pgsql数据,我们选择使用flink-cdc方式进行 架构图: 前提步骤: 1,更改配置文件postgresql.conf # 更改wal日志方式为logical wal_level = logical # minimal, ...
flink-cdc
2021-05-27
1
2422
Spark累加器(Accumulator)陷阱及解决办法
累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。 Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例,在这个例...
spark
2019-04-22
0
419
hive求TopN语句
ROW_NUMBER,RANK(),DENSE_RANK() 先了解这三个之间的区别: Rank():1,2,2,4,5(一般用这个较多,不会影响总排名) Dense_rank():1,2,2,3,4,5(会影响最终排名) Row_number():1,2,3,4,5...
hive
2019-04-15
0
274
Spark内部执行机制
Spark内部执行机制 1.1 内部执行流程 如下图1为分布式集群上spark应用程序的一般执行框架。主要由sparkcontext(spark上下文)、cluster manager(资源管理器)和▪executor(单个节点的执行进程)。其中cluster manager负责整个集...
spark
2019-04-13
0
243