前言

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。下面就让我们看看它的读写底层实现的过程。

HBase写的实现过程

图片说明

如图:
1.Client访问Zookeeper,查找ROOT-表,获取.META表信息。从.META表查找,获取目标数据的Region信息,从而找到对应的RegionServer并发送写请求。
2.把数据分别写到HLog和MemStore上各一份:(写操作只写到内存即可,提高HBase的IO性能)
3.MemStore达到一个阈值后则把数据刷成一个HFile文件。
4.当多个HFile文件达到一定大小后,会触发Compact合并操作,合并为一个StoreFile。
5.当StoreFile大小超过一定阈值后,会把当前的Region切分(Split)为两个,并由Hmaster分配到相应的HRegionServer,实现负载均衡。

HBase 读数据流程

1.Client访问Zookeeper,查找ROOT-表,获取.META表信息。从.META表查找,获取存放目标数据的Region信息,从而找到对应的RegionServer并发送读请求。
2.读请求先到MemStore中查找数据,查不到就到BlockCache中查,再查不到就会到StoreFile上读,并把读的结果放入BlockCache。
BlockCache采用LRU策略和分级缓存策略,当BlockCache的大小达到上限后,会触发缓存淘汰机制,将最老的一批数据淘汰掉。