您的位置 首页 大数据运维

慢作业之 日志打印问题hive udf

慢作业问题

1.慢作业-日志打印问题

在 AA 集群中存在部分任务,执行较慢的情况。这些任务都是比较长的 hiveSQL,处理的数据量并不是很大,在几个 G 左右,但是运行时间很长,需要 40分钟到一个小时。

经过分析,这些任务的 map 阶段其实运行的很快,几十秒就能结束,主要是发生在 Reduce 阶段,Reduce 需要花费几十分钟才能运行完成。查看Reduce 阶段日志发现,Reduce 写出了大量的日志,约有 1G,并且这些日志都像是从表中获取的数据进行的打印。

正常 Hive 是不会输出这些日志的,只有应用端进行了设置才会进行打印。

出现这种情况,最有可能的是使用 Java 代码编写了 Hive 的 UDF 程序,在UDF 中进行了打印,并且在 hive SQL 中使用了 UDF,从而打印了这些日志。

经与生产侧 xxx 沟通,确认使用了 UDF,应用正在确认相关代码,并进行下一步解决。

 

欢迎来撩 : 汇总all

白眉大叔

关于白眉大叔linux云计算: 白眉大叔

热门文章