应用错误收集

为什么我们在hadoop中使用分布式缓存？

时间：2015-06-29 05:38:58

标签： hadoop mapreduce hdfs reduce distributed-cache

无论如何，map reduce框架中的节点之间有很多文件传输。那么如何使用分布式缓存来提高性能。

2 个答案:

答案 0 :(得分：0)

DistributedCache是Map-Reduce框架提供的一种工具，用于缓存应用程序所需的文件。为作业缓存文件后，hadoop框架将使映射/缩减任务正在运行的每个数据节点（在文件系统中，而不是在内存中）可用。文件通过网络传输，通常通过HDFS传输。与使用HDFS进行非数据本地任务相比，它不会对网络造成压力。

答案 1 :(得分：0)

程序运行时没有大量的文件传输。想法是最小化网络数据传输。这就是计算接近数据的原因。
分布式缓存是所有map或reduce任务所需的数据，而不像普通数据那样只需要部分数据（任务分割）。这就是为什么它分配给运行任务的所有节点。