将多个目录的文件组合为Hadoop输入

时间:2013-12-04 11:24:51

标签: hadoop

有两个文件夹 A B ,每个 n 文件。我想处理 A B 中的每个文件对组合,即(A 0 ,B 0 ) ,(A 0 ,B 1 ),...,(A 1 ,B 0 ),( 1 ,B 1 ),...(A n ,B 0 ),..., (A n ,B n )。

是否有可能为该作业编写派生(File)InputFormat?或者将一个文档集合作为辅助数据(使用静态列表)共享并仅处理其他集合作为输入数据会更好吗?

1 个答案:

答案 0 :(得分:0)

在我看来,你想要实现的是一个交叉连接。 Hive,从版本0.10开始已经支持交叉连接,因此您可能希望使用它。