我有一小组文件被缓存并通过DistributedCache分发到map reduce作业。 缓存的文件将来需要定期更新。我想知道是否可以在不重新启动map reduce作业的情况下更新缓存的文件。
我读到了DistributedCache跟踪缓存文件的修改时间戳。当地图减少工作没有使用文件时,这对于更新文件是否有用?
答案 0 :(得分:2)
缓存文件在提交作业时复制到HDFS,然后由不同的任务跟踪器在本地复制到本地节点,然后再生成M / R任务。因此,在作业运行时,无法更改分布式缓存中的文件。