这是一个奇怪的问题,最近我们开始从运行MRv1的旧CDH 4.2.1集群迁移到运行Mrv2(YARN)的CM5托管CDH 5.2.0集群,并遇到了一些相当不寻常的问题。工作流程大约处理1.2TB的数据,而在CDH 4.2.1集群上,处理的处理查询不使用reducer,每个单独的地图输出都存储为单个文件(大约需要35分钟)
在CDH 5.2.0群集上,工作流程大多数时间都会失败(经过正常时间长度的3倍以上),并且总是尝试将所有映射器的输出合并到一个文件中,我们认为这是它倒在哪里。
所有错误日志都指向Shuffle和排序阶段失败,堆空间错误。
我们尝试使用这两个参数来指定没有reducers(mapred.reduce.tasks = 0和mapreduce.jobs.reduces = 0),但这没有效果。
这是一个使用python转换来处理数据字段的HiveQL查询,并且已经迁移了确切的代码,查询,表和工作流。
还有其他人遇到过这个问题,还是有人可以解决这个问题?
谢谢,
安东尼