在Hadoop流媒体作业中使用分布式缓存机制将文件传输到节点时,系统是否在作业完成后删除这些文件?如果它们被删除,我认为它们是,有没有办法让缓存保留多个工作?这在Amazon的Elastic Mapreduce上的工作方式是否相同?
答案 0 :(得分:5)
我正在挖掘源代码,看起来文件被TrackerDistributedCacheManager
删除大约每分钟一次,当他们的引用计数降到零时。 TaskRunner
在任务结束时显式释放其所有文件。也许你应该编辑TaskRunner
不要这样做,并自己通过更明确的方式控制缓存?
答案 1 :(得分:2)
我cross posted this question at the AWS forum并建议使用hadoop fs -get
以跨作业的方式传输文件。