应用错误收集

这是一个奇怪的问题，最近我们开始从运行MRv1的旧CDH 4.2.1集群迁移到运行Mrv2（YARN）的CM5托管CDH 5.2.0集群，并遇到了一些相当不寻常的问题。工作流程大约处理1.2TB的数据，而在CDH 4.2.1集群上，处理的处理查询不使用reducer，每个单独的地图输出都存储为单个文件（大约需要35分钟）

在CDH 5.2.0群集上，工作流程大多数时间都会失败（经过正常时间长度的3倍以上），并且总是尝试将所有映射器的输出合并到一个文件中，我们认为这是它倒在哪里。

所有错误日志都指向Shuffle和排序阶段失败，堆空间错误。

我们尝试使用这两个参数来指定没有reducers（mapred.reduce.tasks = 0和mapreduce.jobs.reduces = 0），但这没有效果。

这是一个使用python转换来处理数据字段的HiveQL查询，并且已经迁移了确切的代码，查询，表和工作流。

还有其他人遇到过这个问题，还是有人可以解决这个问题？

谢谢，

安东尼

从CDH 4.2.1群集迁移到CDH 5.2.0群集由cloudera manager管理后，不依赖于仅映射作业

0 个答案: