HBase经典总结
原文详见
1.HBase特点:
大:一个表可以有上十亿行,上百万列;
面向列:面向列簇的存储和权限控制,列簇独立检索;
稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。
2.HBase底层原理:
系统架构
Client:访问HBase的接口,维护者一些cache来加快对HBase的访问;
Zookeeper:
1、保证任何时候,集群中只有一个master;
2、存储所有Region的寻址入口;
3、实时监控Region Server的状态,将上下线信息通知给Hmaster;
HMaster:
1、为Region Server分配Region
2、负责Region Rerver的负载均衡
3、发现失效的Region Server并重新分配其上的Region
4、HDFS上的垃圾文件回收
5、处理schema更新请求
HRegion Server
1、HRegion Server维护HMaster分配给它的Region,处理对这些Region的IO请求
2、HRegion Server负责切分在运行过程中变得过大的region
3、从图中可以看到,Client访问HBase上数据的过程并不需要HMaster参与(寻址访问Zookeeper和HRegion server,数据读写访问HRegione server)
HMaster仅仅维护者table和HRegion的元数据信息,负载很低.