Hadoop分布式文件系统与分布式缓存

时间:2014-06-10 13:51:06

标签: hadoop hdfs distributed-cache

Hadoop中的分布式文件系统和分布式缓存有什么区别?

1 个答案:

答案 0 :(得分:1)

分布式文件系统,例如Hadoop分布式文件系统(HDFS),是一种允许您将大文件(或更多)存储在许多计算机的硬盘中的体系结构。每台机器都包含该文件的一部分(称为块)。通常,每个块都会被复制多次(默认为三次),以防一些机器崩溃。在这种情况下,您可以通过从其他计算机获取副本来恢复丢失的块。您的PC也有File System,但很可能不会分发。这是您的文件在层次结构中构建并存储的地方。

分布式缓存是一种在作业运行时向所有计算机提供相同输入文件的方法。这些/这些文件被加载到这些机器的内存中。例如,假设您有一个停止词列表,您不希望您的wordcount程序计数。然后,在每个MapReduce作业的开头,将此停用词文件分发到所有映射任务,这些映射任务读取它并跳过这些停用词的计数。这样,所有任务共享一个公共输入文件。作业完成后,没有分布式缓存...

我的答案在许多方面可能在技术上不正确,但我希望它能给出正确的直觉。