Hadoop项目的存储库组织

时间:2010-06-02 00:42:13

标签: mercurial repository hadoop organization

我开始使用一个新的Hadoop项目,它将有多个hadoop作业(因此有多个jar文件)。使用mercurial进行源代码控制,我想知道组织存储库结构的最佳方法是什么?每个作业应该是独立的回购,还是更有效地将它们保持在相同的状态,但是分解成文件夹?

1 个答案:

答案 0 :(得分:1)

如果您正在管道化Hadoop作业(一个输出是另一个的输入),我发现最好将大部分内容保存在同一个存储库中,因为我倾向于生成许多我可以使用的常用方法在各种MR工作中。

就个人而言,由于通常没有依赖关系,因此我将流媒体作业保留在与传统工作单独的仓库中。

您是否计划使用DistributedCache或流媒体作业?您可能需要为您分发的文件创建单独的目录。你真的需要每个Hadoop工作的JAR吗?我发现我没有。

如果您提供有关您计划使用Hadoop的更多详细信息,我可以看到我还能提出建议。