摸鱼等退休

分类

Java(2) JVM(1) 大数据(7) 未归档(20) 算法与数据结构(2) 网络(1) 面试(2)

/ 注册

TA的专栏 20篇文章 14人订阅

大数据从入门到放弃

19篇文章 10940人学习

Kafka的奇妙冒险

1篇文章 1896人学习

全部文章（共7篇）

hive从入门到放弃（一）—— 初识 hive 来自专栏

之前更完了《Kafka从入门到放弃》系列文章，本人决定开新坑——hive从入门到放弃，今天先认识一下hive。 hive介绍 hive是一个开源的用于大数据分析和统计的数据库工具，它的存储基于HDFS，计算基于MapReduce或Spark，可以将结构化数据映射成表，并提供类SQL查询功能。特点 ...

hive 大数据

2022-06-15

2 750

Kafka从入门到放弃（三）—— 消费者来自专栏

Kafka从入门到放弃（三）—— 细说消费者之前介绍了Kafka以及生产者，包括它的一些特性和参数，这回写一下消费者。之前没看得可以点击链接阅读： Kafka从入门到放弃（一）—— 初识Kafka Kafka 从入门到放弃（二）—— 生产者消费者与消费者组在Kafka中消费者是消费消息的对象...

Kafka 大数据消息中间件

2022-03-16

0 621

Kafka 从入门到放弃（二）—— 生产者来自专栏

上一篇对Kafka做了简单介绍（还没看的朋友可以点击链接），消息中间件必须与生产者和消费者一起存在才有意义，不然就只是一台机器，所以这次先来聊聊Kafka的生产者。在开始之前，先了解一下消息在Kafka中是如何存储的，如下图所示，一般我们称那些数字为offset（偏移量）一般来说，消息在持久化后应...

Kafka 大数据

2021-12-08

1 662

Kafka从入门到放弃（一）—— 初识Kafka 来自专栏

消息中间件的使用已经越来越广泛，基本上具有一定规模的系统都会用到它，在大数据领域也是个必需品，但为什么使用它呢？一个技术的广泛使用必然有它的道理。背景与问题以前一些传统的系统，基本上都是“用户——系统——数据库”一条线，拿下单做例子，用户下单，系统接受并处理请求，把数据存到数据库。这样的好处就...

Kafka 大数据消息中间件

2021-11-30

2 513

大数据 | 分布式文件系统 HDFS 来自专栏

HDFS全称Hadoop Distributed File System，看名字就知道是Hadoop生态的一个组件，它是一个分布式文件系统。它的出现解决了独立机器存储大数据集的压力，它将数据集进行切分，存储在若干台计算机上。 HDFS 的特点与应用场景适合存储大文件 HDFS 支持 GB 级别甚至...

大数据

2021-07-10

2 738

国人之光：大数据分析神器Apache Kylin 来自专栏

一、简介 Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。之所以说它是国人之光，是因为它是首个由国人主导的Apache顶级开源项目，能在亚...

数据分析大数据

2021-01-20

1 586

通俗易懂讲解什么是数据仓库？来自专栏

什么是数据仓库数据仓库（下文以“数仓”称），顾名思义，存放数据的仓库，它集合了各个业务系统的数据，以金融业为例，数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策；在有些公司也作为各业务系统的数据来源。从逻辑上理解，数据库和数仓没有区别，都是通过数据库软件实现存放数据...

数据仓库大数据

2019-07-29

3 799