mounike
mounike
全部文章
hive
Hadoop(1)
kafka(1)
MySQL(2)
shell(2)
spark(5)
spider(1)
UserPortrait(1)
VMware(1)
Yarn(1)
资料汇总(1)
归档
标签
去牛客网
登录
/
注册
mounike的博客
全部文章
/ hive
(共6篇)
Hive学习笔记(一)——原理和体系架构
目录 一 hive是什么? 二 为什么会出现hive? 三 hive 为什么适合数据仓库应用程序? 四 hive与传统关系型数据库的比较 五 hive的体系架构 hive体系架构的组成部分: 1 用户接口 2 跨语言服务 thrift server 3 Driver (底层) 4...
2020-07-13
0
895
Hive学习笔记(二)——数据模型
一 hive 的五种数据模型 1 内部表 1)创建内部表 相当于MySQL的表 默认存储为的HDFS的目录 /user/hive/warehouse create table emp (empno int, ename string, job string, mgr i...
2020-07-13
0
548
Hive学习笔记(三)——shell命令行
1 hive与非交互式模式命令行 hive -e:从命令行执行指定的HQL,不需要分号: hive -e ‘select * from dumy limit 100’ >a.txt hive -f :执行HQL脚 hive -f /home/my/hive-scr...
2020-07-13
0
930
Hive学习笔记(四)——优化篇1
HiveQL的调优对于经常使用HQL做数据开发的弟兄来书是很有必要去了解的,学习hive背后的实现细节,如何更加高效的使用hive,我想这也是很有必要了解的。无论是在面试中还是在开发过程中都会起到很大的作用。 此处使用的hive版本为:2.3.0 1 使用EXPLAIN explain可以打印出...
2020-07-13
0
1082
Hive学习笔记(五)——优化篇2
七 JOIN优化 大小表优化 大小表优化指的是在2张或2张以上的表进行join的时候,要保证连续查询中的表的大小从左到右依次是增加的。这样hive会将小表保存到内存中,Hive 可以在map端执行连接的过程,与内存中的小表进行逐一篇匹配,从而省略掉常规操作所需的的reduce过程。 第一种写法...
2020-07-13
0
586
hadoop中小文件的处理思路
1 小文件的出现原因 hadoop存储数据是按block存储的,现在默认是128M问一个文件块,一个文件块对应一个maptask。但是,读取的文件如果是200M等非128的倍数的文件块,客户端切分数据必然会产生小的数据块。 2小文件造成的问题 这些小的数据块的元数据信息(位...
2020-07-13
0
981