您的位置 首页 大数据运维

hadoop集群数据倾斜任务排查实战记录

hadoop集群数据倾斜任务排查实战记录

一、问题发现

作业监控发现作业存在数据倾斜

问题排查
在 YARN 监控页面查看作业信息
查看 yarn 监控页面,此 job 共有 1009 个 reduce, 绝大部分 reduce 都是空跑没有处理数据

下面看一个执行时间很长的 reduce, 大概 18 个多小时

此 reduce 处理的数据量为:86.99 亿条

下面看一个执行时间短的 reduce, 大部分都在 3 分钟以内

处理的数据量为 0

问题解决:

提交开发, 让开发优化一下

 

欢迎来撩 : 汇总all

白眉大叔

关于白眉大叔linux云计算: 白眉大叔

热门文章