标签: hadoop mapreduce hadoop-streaming
我遇到这种情况,我需要在多个reducer中提供数据集。我不想为每个reducer在内存中加载相同的数据,因为我不认为它是最佳行为,文件大小很大。我不希望将数据存储在群集外部,而是进行网络调用。
答案 0 :(得分:0)
将它放在DistributedCache中可能是唯一的选择。