为什么我们在hadoop中使用分布式缓存?

时间:2015-06-29 05:38:58

标签: hadoop mapreduce hdfs reduce distributed-cache

无论如何,map reduce框架中的节点之间有很多文件传输。 那么如何使用分布式缓存来提高性能。

2 个答案:

答案 0 :(得分:0)

DistributedCache是​​Map-Reduce框架提供的一种工具,用于缓存应用程序所需的文件。为作业缓存文件后,hadoop框架将使映射/缩减任务正在运行的每个数据节点(在文件系统中,而不是在内存中)可用。文件通过网络传输,通常通过HDFS传输。与使用HDFS进行非数据本地任务相比,它不会对网络造成压力。

答案 1 :(得分:0)

  1. 程序运行时没有大量的文件传输。想法是最小化网络数据传输。这就是计算接近数据的原因。
  2. 分布式缓存是所有map或reduce任务所需的数据,而不像普通数据那样只需要部分数据(任务分割)。这就是为什么它分配给运行任务的所有节点。