有两个文件夹 A 和 B ,每个 n 文件。我想处理 A 和 B 中的每个文件对组合,即(A 0 ,B 0 ) ,(A 0 ,B 1 ),...,(A 1 ,B 0 ),( 1 ,B 1 ),...(A n ,B 0 ),..., (A n ,B n )。
是否有可能为该作业编写派生(File)InputFormat?或者将一个文档集合作为辅助数据(使用静态列表)共享并仅处理其他集合作为输入数据会更好吗?
答案 0 :(得分:0)
在我看来,你想要实现的是一个交叉连接。 Hive,从版本0.10开始已经支持交叉连接,因此您可能希望使用它。