多次运行的Hadoop启动时间

时间:2012-11-17 07:01:05

标签: hadoop

我有一个hadoop job fat jar,用于定期多次运行不同参数的作业。每项工作的启动时间似乎都很高。我的猜测是胖罐每次都被转移到任务跟踪器。我不想手动将作业jar添加到每个类路径。是否可以将整个作业jar传输到dist cache一次并多次运行?

1 个答案:

答案 0 :(得分:0)

您提到的distributed cache只不过是将JAR复制到所有任务工作者。

如果你的胖罐没有经常更换,你可以做什么,将jar放入Hadoop的lib文件夹中。这些将包含在每个工作运行中。