mounike

hive

Hadoop(1) kafka(1) MySQL(2) shell(2) spark(5) spider(1) UserPortrait(1) VMware(1) Yarn(1) 资料汇总(1)

/ 注册

全部文章 / hive （共6篇）

Hive学习笔记(一)——原理和体系架构

目录一 hive是什么？二为什么会出现hive？三 hive 为什么适合数据仓库应用程序？四 hive与传统关系型数据库的比较五 hive的体系架构 hive体系架构的组成部分： 1 用户接口 2 跨语言服务 thrift server 3 Driver （底层） 4...

2020-07-13

0 1003

Hive学习笔记（二）——数据模型

一 hive 的五种数据模型 1 内部表 1）创建内部表相当于MySQL的表默认存储为的HDFS的目录 /user/hive/warehouse create table emp (empno int, ename string, job string, mgr i...

2020-07-13

0 658

Hive学习笔记（三）——shell命令行

1 hive与非交互式模式命令行 hive -e：从命令行执行指定的HQL，不需要分号： hive -e ‘select * from dumy limit 100’ >a.txt hive -f :执行HQL脚 hive -f /home/my/hive-scr...

2020-07-13

0 1079

Hive学习笔记（四）——优化篇1

HiveQL的调优对于经常使用HQL做数据开发的弟兄来书是很有必要去了解的，学习hive背后的实现细节，如何更加高效的使用hive，我想这也是很有必要了解的。无论是在面试中还是在开发过程中都会起到很大的作用。此处使用的hive版本为：2.3.0 1 使用EXPLAIN explain可以打印出...

2020-07-13

0 1189

Hive学习笔记（五）——优化篇2

七 JOIN优化大小表优化大小表优化指的是在2张或2张以上的表进行join的时候，要保证连续查询中的表的大小从左到右依次是增加的。这样hive会将小表保存到内存中，Hive 可以在map端执行连接的过程，与内存中的小表进行逐一篇匹配，从而省略掉常规操作所需的的reduce过程。第一种写法...

2020-07-13

0 693

hadoop中小文件的处理思路

1 小文件的出现原因 hadoop存储数据是按block存储的，现在默认是128M问一个文件块，一个文件块对应一个maptask。但是，读取的文件如果是200M等非128的倍数的文件块，客户端切分数据必然会产生小的数据块。 2小文件造成的问题这些小的数据块的元数据信息（位...

2020-07-13

0 1058