浅谈HBase数据结构和系统架构

时间：2023-10-17 15:51:10 来源：微信公众号作者：移动Labs

浅谈HBase数据结构和系统架构

Part 01 LSM树模型

常见的的关系型数据库，如MySQL、SQL Server、Oracle等，使用B+ Tree作为数据存储与索引的基本结构，非叶子节点只存放索引数据，叶子节点存放所有数据和指向相邻节点的指针，具有高效的范围查询和稳定的查找效率，以及具有较小的读放大和空间放大。采用磁盘随机读写方式，且以磁盘数据页作为最小的读写单元，随着数据大量插入，导致叶子节点不断分裂，最终导致逻辑连续的数据存放到不同物理磁盘块位置，产生大量的读随机 I/O，从而导致范围查询效率下降和读写放大，磁盘随机读写成为 B+Tree 的瓶颈，适用于读多写少的场景。

Log Structured Merge Tree (日志结构合并树) ，一种先于BigTable出现的文件组织方式，最早可以追溯到1996年 Patrick O'Neil等人的论文，因其独特的数据组织方式(Log Structured)和需要在后台通过不断合并(Merge)的维护方式而得名，在BigTable出现之后，开始被重视被广泛应用于 HBase、Cassandra、ClickHouse、LevelDB、RocksDB 和 TiDB 等写密集型 KV 数据库和存储引擎上。

LSM 树实际上并非是一种具体的数据结构，而是一种具备顺序追加、多层数据结构和定期合并等特性的数据处理逻辑。将离散的随机写转化为批量的顺序写，减少了磁盘寻道时间提高了写入性能，适用于写密集型应用，在Patrick O'Neil的论文中给出了多级的日志结构合并树的结构。

浅谈HBase数据结构和系统架构图片

C0 tree在内存中，C1到Ck tree在磁盘上，Ck tree是一个有序的树状结构，数据的写入流转从C0 tree 内存开始，不断被合并到磁盘上更大容量的Ck tree上。由于内存的读写速率都比外存要快非常多，因此数据写入的效率很高。并且数据从内存刷入磁盘时是预排序的，也就是说，LSM树将原本的随机写操作转化成了顺序写操作，写性能大幅提升。但是读取时需要将内存中的数据和磁盘中的数据合并，牺牲了一部分读性能。

Part 02 HBase系统架构

HBase基LSM树模型构建一个分布式的列数据库，HBase采用Master/Slave架构搭建集群，隶属于Hadoop生态系统，数据存储于HDFS中，其整体的系统架构如下图所示：

浅谈HBase数据结构和系统架构图片

一个RegionServer由一个(或多个)HLog、一个 BlockCache以及多个Region组成

· HLog用来保证数据写入的可靠性;

· BlockCache可以将数据块缓存在内存中以提升数据读取性能;

· Region是HBase中数据表的一个数据分片，一个RegionServer上通常会负责多个Region 的数据读写。

浅谈HBase数据结构和系统架构图片

一张表会被水平切分成多个Region，每个 Region负责自己区域的数据读写请求。一个Region由多个Store组成，每个Store存放对应列簇的数据，比如一个表中有两个列簇，这个表的所有Region就都会包含两个Store。每个Store包含一个MemStore和多个HFile，用户数据写入时会将对应列簇数据写入相应的 MemStore，一旦写入数据的内存大小超过设定阈值，系统就会将MemStore中的数据落盘形成HFile文件。HFile存放在HDFS上，是一种定制化格式的数据存储文件，方便用户进行数据读取。

Part 03 MemStore实现

MemStore是LSM中C0 Tree的实现，由一个可写的Segment，以及一个或多个不可写的Segments构成，所有的数据写入操作，会按顺序先写入日志HLog，再写入MemStore，当MemStore中数据大小超过阈值之后，再将这些数据批量写入磁盘，生成一个新的StoreFile(HFile)，最后多个StoreFile(HFile)又会进行Compact。

· 通过MemStoreLAB(Local Allocation Buffer)，使用堆外一段固定的内存段Chunk来存储KeyValue数据，当Region执行flush之后释放的就是一段Chunk所占有的连续内存，而不是KeyValue占有的零散内存，很好地解决了内存碎片的问题。

· 使用CellSet存放所有的KeyValue的数据，CellSet核心是一个ConcurrentSkipListMap，数据按照Key值有序存放，而且在高并发写入时，性能远高于ConcurrentHashMap，通过跳表实现高效插入、更高的并发性。

浅谈HBase数据结构和系统架构图片

在HBaseV2.x后，使用带合并写内存的CompactingMemStore，MemStore中的Active的Segment数据先Flush成一个Immutable的Segment，多个Immutable Segments可在内存中进行Compaction，当达到一定阈值以后才将内存中的数据持久化成HDFS中的HFile文件。

Part 04 HFile文件结构

HBase使用列族式存储，列族数据是存储在一起的，列族式存储介于行数存储和列式存储之间。

· 一张表，只设置一个列族，等同于行式存储;

· 一张表，设置大量列族，每个列族下仅有一列，等同于行数存储。

在将文件结构前，先看下数据存储格式，当put到hbase一个key和value的时候，会增加一条记录：

(Table, RowKey, Family, Qualifier, Timestamp) -> Value

该记录以字节流的方式存储，对应到磁盘中的存储格式为：

浅谈HBase数据结构和系统架构图片

从HBase开始到现在，HFile经历了三个版本，主要变更如下：

· HFile V1 ，HBase 0.92之前，结构简单，参考了Bigtable的SSTable以及Hadoop的TFile，Region Open的时候，需要加载所有的Data Block Index数据，另外，第一次读取时需要加载所有的Bloom Filter数据到内存中。一个HFile中的Bloom Filter的数据大小可达百MB级别，一个RegionServer启动时可能需要加载数GB的Data Block Index数据

· HFile V2 ，使用分层索引，按需读取Data Block的索引数据和Bloom Filter数据，避免在Region Open阶段或读取阶段一次读入大量的数据，有效降低时延。等load-on-open加载到完，regions server可以认为完成启动，加速启动时间

· HFile V3 ，从0.98版本开始引，主要是为了支持Tag特性，在HFile V2基础上只做了微量改动

在下文内容中，主要围绕HFile V2的设计展开。

浅谈HBase数据结构和系统架构图片

无论是Data Block Index，还是Bloom Filter，都采用了分层索引的设计，最多可支持三层索引：

· 最上层为Root Data Index，放在一个称之为Load-on-open Section区域，Region Open时会被加载到内存中，从Root Data Index 索引到 Intermediate Block Index

· 中间层为Intermediate Index Block，从Intermediate Block Index 索引到 Leaf Index Block

· 最底层为Leaf Index Block，可直接索引到Data Block

在实际场景中，Intermediate Block Index基本上不会存在，因此，索引逻辑被简化为：由Root Data Index直接索引到Leaf Index Block，再由Leaf Index Block查找到的对应的Data Block。

Part 05 HFile Compaction合并

HBase Compaction分为两种：Minor Compaction和Major Compaction，通常我们简称为小合并、大合并，以短时间内的IO消耗，以换取相对稳定的读取性能，下面是一个简单示意图：

浅谈HBase数据结构和系统架构图片

Minor Compaction，指选取一些小的、相邻的HFile将他们合并成一个更大的HFile。通过少量的 IO 减少文件个数，提高读取操作的性能，适合较高频率的跑。缺点是只合并了局部的数据，对于那些全局删除操作，无法在合并过程中完全删除。默认情况下，minor compaction会删除选取HFile中的TTL过期数据。

Major Compaction，指将一个Store中所有的HFile合并成一个HFile，这个过程会清理三类没有意义的数据：被删除的数据(打了Delete标记的数据)、TTL过期数据、版本号超过设定版本号的数据。另外，一般情况下，Major Compaction时间会持续比较长，整个过程会消耗大量系统资源，对上层业务有比较大的影响。因此，生产环境下通常关闭自动触发Major Compaction功能，改为手动在业务低峰期触发。

Part 06 总结

HBase基于LSM Tree模型，通过MemStore和StoreFile实现内存和磁盘中的日志合并，使用顺序追加、定期合并方式，提高数据的写入性能，支持海量数据的存储。通过Compaction合并，以短时间内的IO消耗，获取相对稳定的读取性能。在实际业务中，需要配置合适的合并策略，在读放大、写放大和空间放大中，做好权衡和取舍。

Tags：HBase 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

HBase详细介绍及原理解析！

基本介绍HBase官网：https://hbase.apache.org/。Apache HBase 是 Hadoop中一个支持分布式的、可扩展的大数据存储的数据库。当需要对大数据进行随机、实时读/写访问时，可以用...【详细内容】

2023-11-16　　Search: HBase 点击:(156)　　评论:(0)　　加入收藏

浅谈HBase数据结构和系统架构

Part 01 LSM树模型常见的的关系型数据库，如MySQL、SQL Server、Oracle等，使用B+ Tree作为数据存储与索引的基本结构，非叶子节点只存放索引数据，叶子节点存放所有数据和指向相邻...【详细内容】

2023-10-17　　Search: HBase 点击:(238)　　评论:(0)　　加入收藏

HBase的二级索引种类和设计

0 HBase简介HBase是一个构建在HDFS之上，用于海量数据存储分布式列存储系统。表的每行都是按照RowKey的字典序排序存储表的数据是按照RowKey区间进行分割存储成多个region所...【详细内容】

2022-10-15　　Search: HBase 点击:(328)　　评论:(0)　　加入收藏

分布式存储系统Apache HBase的现状和发展

导读：Apache HBase(Hadoop Database)，是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。全文将围绕以下几个方面展开：ＨBase是什么ＨBase社区的发...【详细内容】

2022-07-08　　Search: HBase 点击:(382)　　评论:(0)　　加入收藏

大白话详解大数据HBase，老刘真的很用心

老刘今天复习HBase知识发现很多资料都没有把概念说清楚，有很多专业名词一笔带过没有解释。比如这个框架高性能、高可用，那什么是高性能、高可用？怎么实现的高性能高可用？没说！如...【详细内容】

2021-03-04　　Search: HBase 点击:(386)　　评论:(0)　　加入收藏

mongodb,redis,hbase，三者都是nosql数据库，他们的最大区别和不同定位是什么？

一、NoSQL的简介NoSQL比关系型数据库性能高数倍。NoSQL凭借 “易扩展、大数据、高可用、高性能、灵活性”特点强势引领全场。CP型分布式数据库，能够保证数据的强一致性和分区...【详细内容】

2021-02-25　　Search: HBase 点击:(889)　　评论:(0)　　加入收藏

Redis、传统数据库、HBase以及Hive的区别

在大数据相关行业的面试中，经常会被问到这个问题：Redis、传统数据库、HBase以及Hive的区别。本文将针对这个面试问题，做以下分析：1.问题分析面试官考核的是你对不同数据存储技...【详细内容】

2021-02-23　　Search: HBase 点击:(759)　　评论:(0)　　加入收藏

Redis、MongoDB、HBase应用场景分析

Redis定位在"快"，MongoDB定位在"灵活"，HBase定位于"大"。在一般使用情况下，MongoDB可以当作简单场景下的但是性能高数倍的MySQL，Redis基本只会用来做缓存，HBase用来存储海量数据...【详细内容】

2020-11-11　　Search: HBase 点击:(548)　　评论:(0)　　加入收藏

聊聊HBase分布式数据库设计那些事

数据模型传统的关系型数据库，一张表(table)由行(row)和列(column)组成。相对Hbase分布式数据库却有所差别，可以把Hbase中的表理解成不同维度Map的集合。包含以下主要概念。 ta...【详细内容】

2020-10-29　　Search: HBase 点击:(333)　　评论:(0)　　加入收藏

什么是HBase？它是怎样工作的？终于有人讲明白了

导读：HBase是一个构建在HDFS之上的、分布式的、支持多版本的NoSQL数据库，它的出现补齐了大数据场景下快速查询数据能力的短板。它非常适用于对平台中的热数据进行存储并提供查...【详细内容】

2020-10-14　　Search: HBase 点击:(338)　　评论:(0)　　加入收藏

▌简易百科推荐

对于微服务架构监控应该遵守的原则

随着软件交付方式的变革，微服务架构的兴起使得软件开发变得更加快速和灵活。在这种情况下，监控系统成为了微服务控制系统的核心组成部分。随着软件的复杂性不断增加，了解系统的...【详细内容】

2024-04-03　　步步运维步步坑　　　　Tags:架构　点击:(5)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　　　InfoQ　　Tags:架构模式　点击:(13)　　评论:(0)　　加入收藏

哈啰云原生架构落地实践

一、弹性伸缩技术实践1.全网容器化后一线研发的使用问题全网容器化后一线研发会面临一系列使用问题，包括时机、容量、效率和成本问题，弹性伸缩是云原生容器化后的必然技术选择...【详细内容】

2024-03-27　　哈啰技术　　微信公众号　　Tags:架构　点击:(10)　　评论:(0)　　加入收藏

DDD 与 CQRS 才是黄金组合

在日常工作中，你是否也遇到过下面几种情况：使用一个已有接口进行业务开发，上线后出现严重的性能问题，被老板当众质疑：“你为什么不使用缓存接口，这个接口全部走数据库，这怎么能扛...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:DDD 　点击:(11)　　评论:(0)　　加入收藏

高并发架构设计（三大利器：缓存、限流和降级）

软件系统有三个追求：高性能、高并发、高可用，俗称三高。本篇讨论高并发，从高并发是什么到高并发应对的策略、缓存、限流、降级等。引言1.高并发背景互联网行业迅速发展，用户量剧...【详细内容】

2024-03-13　　　　阿里云开发者　　Tags:高并发　点击:(6)　　评论:(0)　　加入收藏

如何判断架构设计的优劣？

架构设计的基本准则是非常重要的，它们指导着我们如何构建可靠、可维护、可测试的系统。下面是这些准则的转换表达方式：简单即美（KISS）：KISS原则的核心思想是保持简单。在设计系统...【详细内容】

2024-02-20　　二进制跳动　　微信公众号　　Tags:架构设计　点击:(36)　　评论:(0)　　加入收藏

详解基于SpringBoot的WebSocket应用开发

在现代Web应用中，实时交互和数据推送的需求日益增长。WebSocket协议作为一种全双工通信协议，允许服务端与客户端之间建立持久性的连接，实现实时、双向的数据传输，极大地提升了用...【详细内容】

2024-01-30　　ijunfu　　今日头条　　Tags:SpringBoot 　点击:(9)　　评论:(0)　　加入收藏

PHP+Go 开发仿简书，实战高并发高可用微服务架构

来百度APP畅享高清图片//下栽のke：chaoxingit.com/2105/PHP和Go语言结合，可以开发出高效且稳定的仿简书应用。在实现高并发和高可用微服务架构时，我们可以采用一些关键技术。首...【详细内容】

2024-01-14　　547蓝色星球　　　　Tags:架构　点击:(115)　　评论:(0)　　加入收藏

GraalVM与Spring Boot 3.0：加速应用性能的完美融合

在2023年，SpringBoot3.0的发布标志着Spring框架对GraalVM的全面支持，这一支持是对Spring技术栈的重要补充。GraalVM是一个高性能的多语言虚拟机，它提供了Ahead-of-Time(AOT)编...【详细内容】

2024-01-11　　　　王建立　　Tags:Spring Boot 　点击:(124)　　评论:(0)　　加入收藏

Spring Boot虚拟线程的性能还不如Webflux？

早上看到一篇关于Spring Boot虚拟线程和Webflux性能对比的文章，觉得还不错。内容较长，抓重点给大家介绍一下这篇文章的核心内容，方便大家快速阅读。测试场景作者采用了一个尽可...【详细内容】

2024-01-10　　互联网架构小马哥　　　　Tags:Spring Boot 　点击:(115)　　评论:(0)　　加入收藏

推荐资讯

A股分拆上市密集改道：	探访“中国黄金第一家
藏在AI背后的“吃电狂	看1280份年报：大消费复
美联储年内可能不降息	热门黄金ETF瞬间跌停！
亏本卖！李嘉诚这又在唱	变味的重整：揭秘市值“