datanode 失联排查（二）jvm

白眉大叔发布于 2023年7月18日评论关闭阅读(725)

datanode 失联排查（二）

1.继 HDFS 9000 万+对象下 datanode 失联排查（一）中遇到的问题解决后，datanode 又失联，如下图：

2. 查看 datanode 日志
日志中有超时异常

继续查看日志，发现 GC 耗时过长

筛选 GC 日志，发现频繁发生耗时长的 GC

查看 datanode JVM 堆栈信息，发现老年代使用 100%，且频繁发生 FULL GC

查看系统负载，发现负载过高，CPU 负载过高，符合频繁 FULL GC 的特征

增大 datanode 内存，在 hadoop-env.sh 中添加如下参数：

重启 datanode 回复正常

欢迎来撩：汇总all

CloudEon云原生大数据平台