HBase 故障报告
故障现象描述
3 月 29 号廊坊 XXX 机房 ZZXX 集群备库 35 台主机断电搬迁,未通知平台测进行节点下线,导致 hdfs 丢失大量的数据块,主库无法提供正常服务。系统现状
3 月 31 日 16 点 30 开始,逐步恢复业务查询,4 月 2 日,业务全部恢复正常。
影响范围
ZZXX 产品所有对外数据查询业务提供。
故障恢复时间
03 月 31 日 14:00 完成 ZZXX 集群主库的重建修复,16 点 30 系统业务逐步恢复。
处理过程
1、3 月 29 日下午,运维巡检发现廊坊 XXX 机房风控集群
(LF-324-06)异常,35 台主机节点失联,同时出现数据块丢失。经沟通,确认该集群 HBase 备库节点断电搬迁,备库业务及数据已迁移至 S1YJ 机房新建ZZXX 集群。
2、3 月 30 号晚,用户反馈查询变慢。经核查,应用查询是双线程主备同时查询的方式,由于主库数据块丢失,造成大量访问 block 失败,主库查询线程不能正常释放,只能是超时释放,造成应用系统压力累积,导致用户查询缓慢。鉴于此情况,23 点邮件建议重建主库并重新导入数据。
3、3 月 31 日,10 点技术部平台负责人 XXX 牵头召开故障分析会议,初步决
定搬回原有备库下线设备,修复丢失数据块恢复主库查询功能。
4、12 点 30 分,确认恢复备库,将下电设备重新上线的方式,因为设备重新
搬迁到位的涉及审批及施工时间太长,最终没有采用。决定采用重建主库导入
数据的方式恢复业务。
5、14 点左右,主库新建完毕,开始按调用频次高地分批导入数据。
6、16 点 30 分,完成第一批数据导入,三要素查询等重要接口逐步恢复。
7、由于数据量巨大, 4 月 2 日 22 点完成所有数据导入,恢复所有业务正常查询。
欢迎来撩 : 汇总all