应用错误收集

我有一个使用Hadoop处理1000个小文件的场景。然后，Hadoop作业的输出将用作非Hadoop算法的输入。在当前工作流程中，读取数据，转换为序列文件，处理，然后生成的小文件以序列文件的形式输出到HDFS。但是，非Hadoop算法无法理解序列文件。因此，我已经编写了另一个简单的Hadoop作业来读取生成的文件＆＃39;来自Sequence File的数据，并创建可由非Hadoop算法使用的最终小文件。

这里的问题是，对于最后的工作，我必须从HDFS读取序列文件并写入要由非Hadoop算法处理的每个节点的本地文件系统。我尝试将输出路径设置为file:///<local-fs-path>并使用Hadoop LocalFileSystem类。但是，这样做只会将最终结果输出到namenode的本地文件系统。

为了完成图片，我有10个节点Hadoop设置Yarn。在Hadoop Yarn模式下是否有办法从HDFS读取数据并将结果写入每个处理节点的本地文件系统？

由于

Hadoop Yarn写入本地文件系统

1 个答案: