Hive整合Hbase之后数据的存储位置浅谈
Hive整合Hbase之后数据的存储位置浅谈
1. 创建hive表
创建一张可以映射到Hbase的hive表
create table if not exists hive2hbase (
uid int,
uname string,
age int,
sex string
)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
with serdeproperties(
"hbase.columns.mapping"=":key,base_info:name,base_info:age,base_info:sex"
)
tblproperties(
"hbase.table.name"="hive2hbase1"
);
插入两条数据
hive (default)> insert into hive2hbase values(1001, 'zhangsan', 23, 'female');
hive (default)> insert into hive2hbase values(1001, 'lisi', 24, null);
2. 进入Hbase查看数据
在Hbase中列出所有的表信息,可以看到,产生了一张命名为hive2hbase的表
使用scan查看其中的数据,可以看到有一个rowkey为1001的数据
在hbase的表hive2hbase1中插入一个rowkey为1002的两个值
hbase(main):001:0> put 'hive2hbase1', '1002', 'base_info:age', '23'
hbase(main):002:0> put 'hive2hbase1', '1002', 'base_info:name', 'zhangsan'
3. 在Hive中查询这个表的数据
4. 退出客户端
此时已经完成了Hive中的表可以在Hbase中查到,说明我们已经成功了
有一个问题,此时我们刚刚输入的数据是保存在哪里的呢,是在Hive中,还是在Hbase中
关闭hbase客户端,并停止hbase的服务(为了让数据flush到hdfs)
hbase的目录
hive的目录
通过以上的两张图可以明显的看出,数据是存储在hbase中
5. 总结
经过以上验证,可以看出数据时存储在了hbase中
在hive中,查看这个表的描述信息,hive中表hive2hbase的存储目录是/user/hive/warehouse/hive2hbase
但是我们刚刚看了这个目录是空的,而且表的描述信息也是指向了这个目录,那么它是怎么获取到的hbase上的数据的呢
其实可以看到这个表的描述信息与普通表的描述信息稍有不同
从图中可以看出parameters中,有一个hbase.columns.mapping的属性去映射hbase的表的相关列簇信息
再看一下mysql数据库中所维护的hive的元数据信息
在TBLS表中我们可以看到表hive2hbase的表的id是61
从TABLE_PARAMS这张表中可以看出,id为61的表有一个属性为hbase_table_name为hive2hbase1
个人觉得可能是通过这个属性和hbase中的表进行了关联,但仅仅也只是个人看法,如果有别的看法,欢迎探讨