我正在解析数据,以便通过MapReduce作业从中获得一些感觉。解析的数据以批量的形式出现。它通过火花流工作进一步加载到蜂巢外部表。这是一个实时的过程。现在,当我在输出位置创建 _temporary目录时,我遇到了一个不寻常的事件,由于无法将目录加载到hive表中,因此加载到hive表失败。它只发生过一次,其余的工作都运行良好。请参阅屏幕截图。
_temporary目录还包含任务ID作为空目录。任何人都可以帮助解决这个问题,以便将来可以避免。
答案 0 :(得分:1)
_temporary目录是在尚未完成某些任务时创建的,可能还有一些数据尚未从其临时位置移动其实际位置。该任务可能在Web UI中显示为已完成,但数据移动尚未完成。完成此过程后,将只有_SUCCESS文件。您可以通过监视_temporary目录的大小来检查这一点。这将逐渐减少。