Hadoop分布式缓存 - 修改文件

时间:2012-08-23 20:24:46

标签: hadoop diff distributed-caching distributed-cache

我在分布式缓存中有一个文件。驱动程序类根据作业的输出更新此文件并启动新作业。新工作需要这些更新。

我目前的做法是将旧的分布式缓存文件替换为新的(更新的)。

有没有办法将差异(在旧文件和新文件之间)广播到需要该文件的所有任务跟踪器?

或者是这样的情况,在完成一个工作(第一个,在我的情况下)之后,所有特定于该工作的目录/文件都被删除,因此在这方面思考甚至没有意义?

1 个答案:

答案 0 :(得分:0)

我认为分布式缓存不是考虑到这种情况而构建的。它只是在本地放置文件。
在你的情况下,我建议将文件放入HDFS并让所有感兴趣的人从那里拿走它 作为优化,您可以为此文件提供高复制因子,并且它将是大多数任务的本地文件。