datanode 失联排查(二)
1.继 HDFS 9000 万+对象下 datanode 失联排查(一)中遇到的问题解决后,datanode 又失联,如下图:
2. 查看 datanode 日志
日志中有超时异常
继续查看日志,发现 GC 耗时过长
筛选 GC 日志,发现频繁发生耗时长的 GC
查看 datanode JVM 堆栈信息,发现老年代使用 100%,且频繁发生 FULL GC
查看系统负载,发现负载过高,CPU 负载过高,符合频繁 FULL GC 的特征
增大 datanode 内存,在 hadoop-env.sh 中添加如下参数:
重启 datanode 回复正常
欢迎来撩 : 汇总all