我尝试运行hadoop作业,该作业会在S3上创建,复制,删除文件,并在需要时从S3读取这些文件。
我的工作间歇性失败,但出现以下例外,我正在寻找永久性修复或解决方法。例外是:
由以下原因引起:com.amazon.ws.emr.hadoop.fs.consistency.exception.FileDeletedInMetadataNotFoundException:在元数据中将文件''标记为已删除
在作业失败后从外部运行命令emrfs diff
时,输出中有MANIFEST_ONLY
个红色文件。
然后我运行命令emrfs sync
,该命令将删除这些文件,然后我的作业运行就没有错误。
我不想在作业失败后进行调试,因为这对我来说是不可接受的。另外,我不希望任何人工干预来确保我的工作无缝运行。
我的工作本身会创建,复制,删除文件,然后无法读取文件,这似乎令人困惑,而且我无法在文档中找到任何解决方案。
将感谢所有相关建议。