从Hadoop映射/缩减任务写入ORC文件输出时的性能问题

时间:2018-11-14 09:46:49

标签: hadoop orc

我从hadoop任务中输出了orc文件。我的架构包含嵌套的结构和一些列表(大约四个列表)。每个列表的长度在0到200之间。我的任务输入也是简单结构的orc文件。

情况是,当mapper开始运行时,所有mapper都将停留在进度的1.67%,大约20分钟后,该过程将开始前进。

我试图找出原因。

  1. 我注释了context.write,整个地图缩小任务在10分钟内完成,卡住情况消失了。
  2. 输出空列表,任务仍然快速完成。

所以似乎大清单是问题的原因。但是,问题是:

  1. 列表长度为200的ORC文件是否会导致性能问题?如果可以,有什么解决方案吗?
  2. 为什么进度在乞讨时卡住,并在20分钟后开始运行?

orc的版本为:orc-mapreduce 1.5.2,hadoop-mapreduce-client-core 2.8.0

0 个答案:

没有答案