标签: hadoop
我有一个hadoop job fat jar,用于定期多次运行不同参数的作业。每项工作的启动时间似乎都很高。我的猜测是胖罐每次都被转移到任务跟踪器。我不想手动将作业jar添加到每个类路径。是否可以将整个作业jar传输到dist cache一次并多次运行?
答案 0 :(得分:0)
您提到的distributed cache只不过是将JAR复制到所有任务工作者。
distributed cache
JAR
如果你的胖罐没有经常更换,你可以做什么,将jar放入Hadoop的lib文件夹中。这些将包含在每个工作运行中。