Hadoop - 在链中的多个作业之间共享文件

时间:2011-06-09 22:13:05

标签: hadoop

我编写了一个map-reduce应用程序,它包含两个map-reduce阶段。

二进制输入文件 - > M1-> r1 - > m2 - > r2 - >文字输出

我的应用程序的输入文件包含第二个reducer(r2)所需的一小块数据(<1k)。我编写了一个自定义记录阅读器来提取这些数据,但是如何将其传递给下一个工作?看起来这是DistributedCache的一项工作,但似乎DistributedCache缓存文件的范围限定为单个作业的临时空间。在同一个链中的不同作业之间共享小数据的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

使用-files选项尝试hadoop 我过去有类似的问题,-files选项对我有用。 看看here