地图边连接可以加入的最大路径数量?

时间:2012-11-27 07:32:24

标签: hadoop

Map Side join实际可以加入的最大路径数是多少?

我有 n 文件夹 - path / to / folder1,path / to / folder2,path / to / folder3 .... so path on / to / foldern in HDFS

path / to / folder1包含3个文件,例如part-1,part-2,part-3。同样,所有剩余文件夹中的每个文件夹都有3个文件,每个文件的名称与folder1中的文件相同。

我想使用地图侧连接加入这些文件夹,如下所示

pathsToJoin< - path / to / folder1,path / to / folder2,path / to / folder3 .... so path / to / folder * n *

String joinStmt = CompositeInputFormat.compose(“outer”,TextInputFormat,pathsToJoin);

conf.set(“mapred.join.expr”,joinStmt);

由于每个文件夹中有3个文件,该作业将产生3个地图任务(连接到一个映射器的所有第1部分文件的内容,所有第2部分文件的内容到第2个映射器以及所有第3部分文件的内容)到第3个映射器)但我想知道 n 的最大值是什么?

1 个答案:

答案 0 :(得分:0)

CompositeInputFormat的源代码似乎没有硬限制,路径附加到描述连接的String表达式,然后解析为分割。你可能受到记忆的限制,但我想你可以列出100's而不是1000's而没有任何问题