Flash7k
Flash7k
全部文章
分类
Java基础学习笔记(2)
Spring阅读笔记(1)
大数据学习笔记(9)
大数据面试重点(2)
算法(4)
组件学习笔记(1)
归档
标签
去牛客网
登录
/
注册
耶比小林
野比大雄的隔壁邻居
全部文章
(共7篇)
大数据面试重点
数据仓库 为什么要分层? 复杂问题简单化:将复杂任务分解成多层,每层只处理简单的任务,方便定位问题 减少重复开发:通过中间层数据,能减少重复计算,增加一次计算结果的复用性 隔离原始数据:过滤异常数据,对数据脱敏,使真实数据与统计数据解耦 关系建模与维度建模 关系模型 严格遵守第三范式,数据冗余程度...
Hadoop
Hive
Kafka
总结
2022-04-01
2
593
大数据学习笔记:Hadoop-重点总结
1. 集群搭建 配置文件 位置:$HADOOP_HOME/etc/hadoop core-site.xml <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configu...
Java
Hadoop
总结
2022-04-01
0
498
大数据学习笔记:Hadoop-调优
1. HDFS-核心参数 1)NameNode内存生产配置 NameNode内存计算 每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块? 128 * 1024 * 1024 * 1024 / 150 byte ≈ 9.1亿 Hadoop2.x,配置NameN...
Java
Hadoop
调优
2022-04-01
0
436
大数据学习笔记:Hadoop-Yarn
1. 基础架构 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 组成:ResourceManager、NodeManager、ApplicationMaster、Container ...
Java
Hadoop
Yarn
2022-04-01
0
388
大数据学习笔记:Hadoop-MapReduce
Hadoop-MapReduce 第1章 MapReduce概述 1.1 MapReduce定义 定义:分布式运算程序编程框架,用户开发“基于Hadoop的数据分析应用”的核心框架 核心功能:将 用户编写的业务逻辑代码 和 自带默认组件 整合成一个完整的 分布式运算程序 ,并发运行在Hadoop集...
Java
Hadoop
MapReduce
2022-04-01
0
427
大数据学习笔记:Hadoop-HDFS
Hadoop-HDFS 第1章 HDFS概述 1.1 HDFS产出背景及定义 HDFS产生背景 一个操作系统中存不下所有数据,只能分配到更多操作系统管理的磁盘中,但是不方便管理和维护。因此需要一种系统来管理多台机器上的文件,也就是分布式文件管理系统,HDFS只是其中一种 HDFS定义 Ha...
Java
Hadoop
HDFS
2022-04-01
1
309
大数据学习笔记:Hadoop-集群搭建
Hadoop-集群搭建 第一章 Hadoop概述 1.1 Hadoop是什么 由Apache基金会开发的分布式系统基础架构 解决海量数据的存储和分析计算问题 广义上指Hadoop生态圈 1.2 Hadoop发展历史 创始人Doug Cutting 为实现与Google类似的全文检索,在L...
Java
Hadoop
2022-04-01
0
468