HBase 参数调优-白眉大叔

HBase 参数调优

1.Region 相关参数

hbase.hregion.max.filesize

默认 10G，Region 中任意 HStore 所有文件大小总和大于该值就会进行分裂。实际生产环境中该值不建议太大，也不能太小，太大会导致系统后台执行 compaction 消耗大量系统资源，一定程度上影响业务响应；太小会导致Region 分裂比较频繁，分裂本身其实对业务读写会有一定影响，使单个RegionServer 中存在大量 Region，太多 Region 会消耗大量维护资源，并且在 RegionServer 下线迁移时比较耗时。建议线上设置为 50G～80G 左右。

2.BlockCache 相关参数

BlockCache 相关的参数非常多，不同 BlockCache 策略对应不同的参数，RegionServer 内存在 20G 以内的就选择 LRUBlockCache，大于 20G 的就选择 BucketCache 中的 Offheap 模式。

BucketCache 的 offheap 模配置：

file.block.cache.size：默认 0.4，该值用来设置 LRUBlockCache 的内存大小，0.4 表示 JVM 内存的 40%，当前 HBase 系统默认采用 LRUBlockCache策略，BlockCache 大小和 Memstore 大小均为 JVM 的 40%。但对于BucketCache 策略来讲，Cache 分为了两层，L1 采用 LRUBlockCache，主要存储 HFile 中的元数据 Block，L2 采用 BucketCache，主要存储业务数据Block。因为只用来存储元数据 Block，所以只需要设置很小的 Cache 即可。建议线上设置为 0.05～0.1 左右。

hbase.bucketcache.ioengine：offheap

hbase.bucketcache.size：堆外存大小，设置多大就看自己的物理内存大小了

3.刷写参数

HBase 写入数据时会先写 WAL 日志，再将数据写到写缓存 MemStore中，等写缓存达到一定规模或其他触发条件时会 Flush 刷写到磁盘，生成一个 HFile 文件，这样就将磁盘随机写变成了顺序写，提高了写性能。
随着时间推移，写入的 HFile 会越来越多，读取数据时就会因为要进行多次 io 导致性能降低，因此 HBase 会定期执行 Compaction 操作以合并减少HFile 数量，提升读性能。

有 7 种情况会触发 Flush：

1) 当一个 MemStore 大小达到阈值

hbase.hregion.memstore.flush.size （默认 128M ）时，会触发MemStore 的刷写，此时不会阻塞写请求。

2) 当一个 Region 中所有 MemStore 总大小达到

hbase.hregion.memstore.block.multiplier

hbase.hregion.memstore.flush.size（默认 4*128M=512M）时

会触发 MemStore 的刷写，并阻塞 Region 所有的写请求，此时写数据会出现 RegionTooBusyException 异常。

3) 当一个 RegionServer 中所有 MemStore 总大小达到

hbase.regionserver.global.memstore.size.lower.limit* hbase.regionserver.global.memstore.size * hbase_heapsize（低水位阈值，默认 0.95 * 0.4 * RS 堆大小）时，会触发 RegionServer 中内存占用大的 MemStore 的刷写；

达到hbase.regionserver.global.memstore.size * hbase_heapsize （高
水位阈值，默认 0.4 * RS 堆大小）时，不仅会触发 Memstore 的刷写，还会阻塞 RegionServer 所有的写请求，直到 Memstore 总大小降到低水位阈值以下。

4) 当一个 RegionServer 的 HLog 即 WAL 文件数量达到上限（可通过参数 hbase.regionserver.maxlogs 配置，默认 32）时，也会触发MemStore 的刷写， HBase 会找到最旧的 HLog 文件对应的Region 进行刷写。

5) 当一个 Region 的更新次数达到hbase.regionserver.flush.per.changes（默认 30000000 即 3 千万）时，也会触发 MemStore 的刷写。

6) 定期 hbase.regionserver.optionalcacheflushinterval（默认3600000 即一个小时）进行 MemStore 的刷写，确保 MemStore 不会长时间没有持久化。为避免所有的 MemStore 在同一时间进行flush 而导致问题，定期的 flush 操作会有一定时间的随机延时。
7) 手动执行 flush 操作，我们可以通过 hbase shell 或 API 对一张表或一个 Region 进行 flush

上面是 Flush 的几个触发条件，5 个和 Flush 有关的重要参数及调整建议：

hbase.hregion.memstore.flush.size

默认值 128M，单个 MemStore 大小超过该阈值就会触发 Flush。如果当前集群 Flush 比较频繁，并且内存资源比较充裕，建议适当调整为 256M。调大的副作用可能是造成宕机时需要分裂的 HLog 数量变多，从而延长故障恢复时间。

hbase.hregion.memstore.block.multiplier

默认值 4，Region 中所有 MemStore 超过单个 MemStore 大小的倍数达到该参数值时，就会阻塞写请求并强制 Flush。一般不建议调整，但对于写入过快且内存充裕的场景，为避免写阻塞，可以适当调整到 5~8。

hbase.regionserver.global.memstore.size

默认值 0.4 ， RegionServer 中所有 MemStore 大小总和最多占 RegionServer 堆内存的 40%。这是写缓存的总比例，可以根据实际场景适当调整，且要与 HBase 读缓存参数 hfile.block.cache.size
（默认也是 0.4 ）配合调整。旧版本参数名称为 hbase.regionserver.global.memstore.upperLimit。

hbase.regionserver.global.memstore.size.lower.limit

默认值 0.95，表示 RegionServer 中所有 MemStore 大小的低水位是 hbase.regionserver.global.memstore.size 的 95%，超过该比例就会强制 Flush 。一般不建议调整。旧版本参数名称为 hbase.regionserver.global.memstore.lowerLimit。

hbase.regionserver.optionalcacheflushinterval

默认值 3600000 （即 1 小时）， HBase 定期 Flush 所有MemStore 的时间间隔。一般建议调大，比如 10 小时，因为很多场景下 1 小时 Flush 一次会产生很多小文件，一方面导致 Flush 比较频繁，另一方面导致小文件很多，影响随机读性能，因此建议设置较大值。

4.合并相关参数

HBase 会定期执行 Compaction 合并 HFile，提升读性能，其实就是以短时间内的 io 消耗，换取相对稳定的读取性能。Compaction 类型分为两种：Minor Compaction 与 Major Compaction，可以称为小合并、大合并，简单示意图：

Minor Compaction 是指选取一些小的、相邻的 HFile 将他们合并成一个更大的 HFile，Minor Compaction 会删除选取 HFile 中的 TTL 过期数据。

Major Compaction 是指将一个 Store 中所有的 HFile 合并成一个 HFile，这个过程会清理三类没有意义的数据：被删除的数据（打了 Delete 标记的数据）、TTL 过期数据、版本号超过设定版本
号的数据。另外，一般情况下，Major Compaction 时间会持续比较长，整个过程会消耗大量系统资源，对上层业务有比较大的影响。因此，生产环境下通常关闭自动触发 Major Compaction 功能，改为手动在业务低峰期触发。

Compaction 触发时机

HBase 会在三种情况下检查是否要触发 Compaction，分别是MemStore Flush、后台线程周期性检查、手动触发。

1) MemStore Flush：

可以说 Compaction 的根源就在于 Flush，MemStore 达到一定阈值或触发条件就会执行 Flush 操作，在磁盘上生成 HFile 文件，正是因为 HFile 文件越来越多才需要 Compact。
HBase 每次 Flush 之后，都会判断是否要进行 Compaction，一旦满足 Minor Compaction 或 Major Compaction 的条件便会触发执行。

2) 后台线程周期性检查：

后台线程 CompactionChecker 会定期检查是否需要执行 Compaction ，检查周期为hbase.server.thread.wakefrequency *
hbase.server.compactchecker.interval.multiplier ，这里主要考虑的是一段时间内没有写入仍然需要做 Compact 检查。其中参数hbase.server.thread.wakefrequency 默认值 10000 即 10s ，是
HBase 服务端线程唤醒时间间隔，用于 LogRoller 、MemStoreFlusher 等的周期性检查；参数
hbase.server.compactchecker.interval.multiplier 默认值 1000 ，是 Compaction 操作周期性检查乘数因子，10 * 1000 s 时间上约等于 2hrs, 46mins, 40sec。

3)手动触发：通过 HBase Shell、Master UI 界面或 HBase API 等任一种方式执行 compact、 major_compact 等命令，会立即触发Compaction

Compaction 核心参数

1)hbase.hstore.compaction.min

默认值 3，一个 Store 中 HFile 文件数量超过该阈值就会触发一次 MinorCompaction，这里称该参数为 minFilesToCompact。一般不建议调小，重写场景下可以调大该参数，比如 5~10 之间。老版本参数名称为
hbase.hstore.compactionthreshold。

2)hbase.hstore.compaction.max
默认值 10，一次 Minor Compaction 最多合并的 HFile 文件数量，这里称该参数为 maxFilesToCompact。这个参数也控制着一次压缩的耗时。一般不建议调整，但如果上一个参数调整了，该参数也应该相应调整，一般设为 minFilesToCompact 的 2~3 倍。

3)hbase.regionserver.thread.compaction.throttle
评估单个 compaction 为 small 或者 large 的判断依据。为了防止 largecompaction 长时间执行阻塞其他 small compaction，hbase 将这两种compaction 进行了分离处理，每种 compaction 会分配独立的线程池
HBase RegionServer 内部设计了两个线程池 large compactions 与 smallcompactions，用来分离处理 Compaction 操作，该参数就是控制一个Compaction 交由哪一个线程池处理，默认值是 2 * maxFilesToCompact *hbase.hregion.memstore.flush.size（默认 2*10*128M=2560M 即 2.5G），建议不调整或稍微调大

4)hbase.regionserver.thread.compaction.large/small
默认值 1，表示 large compactions 与 small compactions 线程池的大小。一般建议调整到 2~5，不建议再调太大比如 10，否则可能会消费过多的服务端资源造成不良影响。

5)hbase.hstore.blockingStoreFiles
默认值 10，表示一个 Store 中 HFile 文件数量达到该值就会阻塞写入，等待 Compaction 的完成。一般建议调大点，比如设置为 100，避免出现阻塞更新的情况，
阻塞日志如下：

too many store files; delaying flush up to 90000ms

生产环境建议认真根据实际业务量做好集群规模评估，如果小集群遇到了持续
写入过快的场景，合理扩展集群也非常重要。

6、hbase.hregion.majorcompaction
默认值 604800000 ms 即 7 天，这是 Major Compaction 周期性触发执行
的时间间隔。通常 Major Compaction 持续时间较长、资源消耗较大，一般
设为 0，表示关闭自动触发，建议在业务低峰期时手动执行。

5.HLog 相关参数

1)hbase.regionserver.maxlogs
默认为 32，region flush 的触发条件之一，wal 日志文件总数超过该阈值就会强制执行 flush 操作。该默认值对于很多集群来说太小，生产线上具体设置参考 HBASE-14951
2)hbase.regionserver.hlog.splitlog.writer.threads
默认为 3，regionserver 恢复数据时日志按照 region 切分之后写入 buffer，重新写入 hdfs 的线程数。生产环境因为 region 个数普遍较多，为了加速数据恢复，建议设置为 10。

6.Call Queue 相关参数

1)hbase.regionserver.handler.count

默认为 30，服务器端用来处理用户请求的线程数。生产线上通常需要将该值调
到 100～200

解读：response time = queue time + service time，用户关心的请求响应时间由两部分构成，优化系统需要经常关注 queue time，如果用户请求排队时间很长，首要关注的问题就是hbase.regionserver.handler.count 是否没有调整。

2)hbase.ipc.server.callqueue.handler.factor
默认为 0，服务器端设置队列个数，假如该值为 0.1，那么服务器就会设置handler.count * 0.1 = 30 * 0.1 = 3 个队列。
3)hbase.ipc.server.callqueue.read.ratio
默认为 0，服务器端设置读写业务分别占用的队列百分比以及 handler 百分比。假如该值为 0.5，表示读写各占一半队列，同时各占一半 handler

7.其他参数

1)hbase.online.schema.update.enable
默认为 false，表示更新表 schema 的时候不再需要先 disable 再 enable，直接在线更新。该参数在 HBase 2.0 之后将会默认为 true。生产线上建议设置为true。
2)hbase.quota.enabled
默认为 false，表示是否开启 quota 功能，quota 功能主要用来限制用户/表的QPS，起到限流作用。生产线上建议设置为 true。
3)hbase.snapshot.enabled
默认为 false，表示是否开启 snapshot 功能，snapshot 功能主要用来备份HBase 数据。生产线上建议设置为 true。

4)zookeeper.session.timeout

默认 180s，表示 zookeeper 客户端与服务器端 session 超时时间，超时之后RegionServer 将会被踢出集群。

解读：有两点需要重点关注，其一是该值需要与 Zookeeper 服务器端 session相关参数一同设置才会生效，一味的将该值增大而不修改 ZK 服务端参数，可能并不会实际生效。其二是通常情况下离线集群可以将该值设置较大，在线业务需要根据业务对延迟的容忍度考虑设置。

5)hbase.zookeeper.useMulti

默认为 false，表示是否开启 zookeeper 的 multi-update 功能，该功能在某些场景下可以加速批量请求完成，而且可以有效防止部分异常问题。生产线上建议设置为 true。注意设置为 true 的前提是 Zookeeper 服务端的版本在 3.4以上，否则会出现 zk 客户端夯住的情况.

欢迎来撩：汇总all

1.Region 相关参数

2.BlockCache 相关参数

3.刷写参数

4.合并相关参数

Compaction 核心参数

5.HLog 相关参数

6.Call Queue 相关参数

7.其他参数

关于白眉大叔linux云计算: 白眉大叔

相关文章

CloudEon云原生大数据平台

zookeeper数据存储及查看hbase信息(hbase 在 zookeeper 上目录)

hadoop集群组件版本

热门文章

1联想笔记本-insydeh20 setup utility怎么设置硬盘启动项

2dify_配置火山账号-火山的 Endpoint ID 在哪里找（豆包大模型）

3VMWare怎么开启GPU虚拟化

4Milvus 向量型数据库（云原生）Milvus demo

5pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available