上一课

大数据

django入门到进阶(3) docker(6) Hadoop系列(2) Hbase(1) java基础篇(9) java高级部分(4) python之路(6) python数据分析/数据挖掘(4) Redis系列(2) 并发编程(4) 未归档(9) 表单验证插件Tyrion(1)

/ 注册

全部文章 / 大数据（共6篇）

Debezium监控MySQL，PGsql，SQLServer

1. Debezium简介 Debezium 是一个分布式平台，它将现有的数据库转换为事件流，应用程序消费事件流，就可以知道数据库中的每一个行级更改，并立即做出响应。Debezium 构建在 Apache Kafka 之上，并提供 Kafka 连接器来监视特定的数据库。在介绍 Debezium 之...

Debezium Debezium

2021-07-09

1 683

python生成数据仓库日期维度表

设计一张日期维度表表名称：DIM_PUB_DATE 具体属性值： <colgroup> </colgroup> 字段名称 ...

hive 数仓

2021-07-09

0 934

Flink-cdc实时读postgresql

由于公司业务需要，需要实时同步pgsql数据，我们选择使用flink-cdc方式进行架构图：前提步骤: 1，更改配置文件postgresql.conf # 更改wal日志方式为logical wal_level = logical # minimal, ...

flink-cdc

2021-05-27

1 2546

Spark累加器(Accumulator)陷阱及解决办法

累加器（accumulator）是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。 Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例...

spark

2019-04-22

0 442

hive求TopN语句

ROW_NUMBER，RANK()，DENSE_RANK() 先了解这三个之间的区别： Rank()：1,2,2,4,5（一般用这个较多，不会影响总排名） Dense_rank()：1,2,2,3,4,5（会影响最终排名） Row_number()：1,2,3,4,5...

hive

2019-04-15

0 295

Spark内部执行机制

Spark内部执行机制 1.1 内部执行流程　　如下图1为分布式集群上spark应用程序的一般执行框架。主要由sparkcontext（spark上下文）、cluster manager(资源管理器)和▪executor（单个节点的执行进程）。其中cluster manager负责整个集...

spark

2019-04-13

0 286