应用错误收集

为每个映射器hadoop在内存中加载相同的文件

时间：2012-11-02 03:19:39

标签： java hadoop mapreduce

我遇到了一个算法，其中相同的文件被加载到每个映射器的主存储器中。

我认为，对于每个映射器，我们必须使用分布式缓存来获取文件，并读取文件并将其加载到内存中。当我实现这个时，我发现地图需要很长时间才能完成。我假设，这是因为，每次从本地光盘读取每个映射器值的文件。

我执行它是否正确？

还有其他建议吗？

请帮忙！提前谢谢！

1 个答案:

答案 0 :(得分：1)

您想在Mapper setup（）方法中从本地磁盘读取。使用实例变量来保持引用。