如何在同一主机上的多个Reducer之间共享数据

时间:2015-08-28 20:01:14

标签: hadoop mapreduce hadoop-streaming

我遇到这种情况,我需要在多个reducer中提供数据集。我不想为每个reducer在内存中加载相同的数据,因为我不认为它是最佳行为,文件大小很大。我不希望将数据存储在群集外部,而是进行网络调用。

1 个答案:

答案 0 :(得分:0)

将它放在DistributedCache中可能是唯一的选择。