当mapreduce作业完成时,_temporary目录不会从输出位置删除

时间:2017-05-05 08:57:22

标签: hive mapreduce hadoop2 hadoop-partitioning bigdata

我正在解析数据,以便通过MapReduce作业从中获得一些感觉。解析的数据以批量的形式出现。它通过火花流工作进一步加载到蜂巢外部表。这是一个实时的过程。现在,当我在输出位置创建 _temporary目录时,我遇到了一个不寻常的事件,由于无法将目录加载到hive表中,因此加载到hive表失败。它只发生过一次,其余的工作都运行良好。请参阅屏幕截图。

Screenshot of output location

_temporary目录还包含任务ID作为空目录。任何人都可以帮助解决这个问题,以便将来可以避免。

1 个答案:

答案 0 :(得分:1)

_temporary目录是在尚未完成某些任务时创建的,可能还有一些数据尚未从其临时位置移动其实际位置。该任务可能在Web UI中显示为已完成,但数据移动尚未完成。完成此过程后,将只有_SUCCESS文件。您可以通过监视_temporary目录的大小来检查这一点。这将逐渐减少。