Hadoop中分布式缓存的生命周期

时间:2010-12-19 15:57:17

标签: hadoop amazon-web-services elastic-map-reduce

在Hadoop流媒体作业中使用分布式缓存机制将文件传输到节点时,系统是否在作业完成后删除这些文件?如果它们被删除,我认为它们是,有没有办法让缓存保留多个工作?这在Amazon的Elastic Mapreduce上的工作方式是否相同?

2 个答案:

答案 0 :(得分:5)

我正在挖掘源代码,看起来文件被TrackerDistributedCacheManager删除大约每分钟一次,当他们的引用计数降到零时。 TaskRunner在任务结束时显式释放其所有文件。也许你应该编辑TaskRunner不要这样做,并自己通过更明确的方式控制缓存?

答案 1 :(得分:2)

cross posted this question at the AWS forum并建议使用hadoop fs -get以跨作业的方式传输文件。