在hadoop中更新分布式缓存中的文件

时间:2014-02-24 06:50:29

标签: hadoop updates distributed-cache

我们如何更新分布式缓存中的文件/文件?

例如,我在分布式缓存中有一个属性文件现在我在属性文件中添加了更多的值。

选项:

  1. 在旧文件中附加新值并重新启动作业。
  2. 用新文件替换旧文件并重新启动作业。
  3. 将新文件放在新位置并指向该位置。
  4. 以上所有选项都是正确的,为什么?

1 个答案:

答案 0 :(得分:0)

这需要了解分布式缓存的工作原理: 将文件添加到分布式缓存时,在运行作业时,文件将复制到每个任务节点,并且该文件在本地可用。由于它创建了多个副本:它无法修改。

选项2& 3声音可行,但不确定这是否正确。

如果文件只有一堆属性,则可以在配置对象中设置这些属性,而不是在分布式缓存中设置文件。您可以使用收集器将输出写入所需位置。 (我不清楚你的用例,所以这可能不合适。)