前言

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。下面就让我们看看它的读写底层实现的过程。

HBase写的实现过程

图片说明

如图：
1.Client访问Zookeeper，查找ROOT-表，获取.META表信息。从.META表查找，获取目标数据的Region信息，从而找到对应的RegionServer并发送写请求。
2.把数据分别写到HLog和MemStore上各一份：（写操作只写到内存即可，提高HBase的IO性能）
3.MemStore达到一个阈值后则把数据刷成一个HFile文件。
4.当多个HFile文件达到一定大小后，会触发Compact合并操作，合并为一个StoreFile。
5.当StoreFile大小超过一定阈值后，会把当前的Region切分（Split）为两个，并由Hmaster分配到相应的HRegionServer，实现负载均衡。

HBase 读数据流程

1.Client访问Zookeeper，查找ROOT-表，获取.META表信息。从.META表查找，获取存放目标数据的Region信息，从而找到对应的RegionServer并发送读请求。
2.读请求先到MemStore中查找数据，查不到就到BlockCache中查，再查不到就会到StoreFile上读，并把读的结果放入BlockCache。
BlockCache采用LRU策略和分级缓存策略，当BlockCache的大小达到上限后，会触发缓存淘汰机制，将最老的一批数据淘汰掉。

HBase读写底层实现

前言

HBase写的实现过程

HBase 读数据流程