您的位置 首页 大数据运维

datanode 数据盘坏盘 (更换硬盘实战)

datanode 数据盘坏盘故障

 

以 yz-4m1-01 机房 hadoop056 出现坏盘为例

1.发现故障
目前发现数据坏盘的方式有两种,通过监控系统自动报警和在 CM 页面里肉眼观察。

自动报警:待定。

肉眼观察:在 HDFS 页面的 datanodes 目录 (http://132.35.xx.xx:50070/dfshealth.html#tab-datanode)里,观察 Failed Volumes 列的数值,若有非 0 值,则该值对应的 datanode 有坏盘。

 

2.停止 hadoop056 上的进程

以 Admin 身份登录 CM,进入 hadoop1-56 的进程页面,在右上方的“操作”里选择“停止主机上的角色”

3.通知硬件侧更换硬盘

4.换盘后的操作

①以 root 身份登录到 hadoop056 节点

②停止 cloudera-scm-agent

命令:/opt/cm-5.1.3/etc/init.d/cloudera-scm-agent stop

③返回 hadoop 用户,查看 datanode 进程是否已经停止

④切回 root,查看/data 目录,找到新换的盘。

属主和属组是 root 的磁盘就是被更换的新盘。

⑤在新换的磁盘目录 hdfsdsk01 下新建目录

在正常情况下,以 hdfsdsk02 为例,磁盘目录里应该有如下 5 个目录。

但是新加的磁盘是没有红框里的 4 个目录,需要我们手工创建。

只创建第一级即可,它们下面的目录和文件会在 datanode 进程启动之后自动生成。

⑥修改新磁盘目录的属主和属组为 hadoop

命令:chown -R hadoop:hadoop /data/hdfsdsk01

改变属组和属主之后的效果

⑦启动 cloudera-scm-agent

命令:/opt/cm-5.1.3/etc/init.d/cloudera-scm-agent start

⑧返回 hadoop 用户,检查 datanode 进程是否已经启动

jps

⑨二次确认

检查新换的盘是否还有坏卷

命令:

fsck -y /data/hdfsdsk01

若还存在坏盘,则通知二线 xx 处理。

 

欢迎来撩 : 汇总all

白眉大叔

关于白眉大叔linux云计算: 白眉大叔

热门文章