datanode 数据盘坏盘（更换硬盘实战）-白眉大叔

datanode 数据盘坏盘故障

以 yz-4m1-01 机房 hadoop056 出现坏盘为例

1.发现故障
目前发现数据坏盘的方式有两种，通过监控系统自动报警和在 CM 页面里肉眼观察。

自动报警：待定。

肉眼观察：在 HDFS 页面的 datanodes 目录 (http://132.35.xx.xx:50070/dfshealth.html#tab-datanode)里，观察 Failed Volumes 列的数值，若有非 0 值，则该值对应的 datanode 有坏盘。

2.停止 hadoop056 上的进程

以 Admin 身份登录 CM，进入 hadoop1-56 的进程页面，在右上方的“操作”里选择“停止主机上的角色”

3.通知硬件侧更换硬盘

4.换盘后的操作

①以 root 身份登录到 hadoop056 节点

②停止 cloudera-scm-agent

命令：/opt/cm-5.1.3/etc/init.d/cloudera-scm-agent stop

③返回 hadoop 用户，查看 datanode 进程是否已经停止

④切回 root，查看/data 目录，找到新换的盘。

属主和属组是 root 的磁盘就是被更换的新盘。

⑤在新换的磁盘目录 hdfsdsk01 下新建目录

在正常情况下，以 hdfsdsk02 为例，磁盘目录里应该有如下 5 个目录。

但是新加的磁盘是没有红框里的 4 个目录，需要我们手工创建。

只创建第一级即可，它们下面的目录和文件会在 datanode 进程启动之后自动生成。

⑥修改新磁盘目录的属主和属组为 hadoop

命令：chown -R hadoop:hadoop /data/hdfsdsk01

改变属组和属主之后的效果

⑦启动 cloudera-scm-agent

命令：/opt/cm-5.1.3/etc/init.d/cloudera-scm-agent start

⑧返回 hadoop 用户，检查 datanode 进程是否已经启动

jps

⑨二次确认

检查新换的盘是否还有坏卷

命令：

fsck -y /data/hdfsdsk01

若还存在坏盘，则通知二线 xx 处理。

欢迎来撩：汇总all

CloudEon云原生大数据平台