我从hadoop任务中输出了orc文件。我的架构包含嵌套的结构和一些列表(大约四个列表)。每个列表的长度在0到200之间。我的任务输入也是简单结构的orc文件。
情况是,当mapper开始运行时,所有mapper都将停留在进度的1.67%,大约20分钟后,该过程将开始前进。
我试图找出原因。
context.write
,整个地图缩小任务在10分钟内完成,卡住情况消失了。所以似乎大清单是问题的原因。但是,问题是:
orc的版本为:orc-mapreduce
1.5.2,hadoop-mapreduce-client-core
2.8.0