hadoop伪分布式操作与独立操作的性能比较

时间:2012-05-01 18:52:23

标签: performance hadoop distributed

我是hadoop的初学者。但我有这个有趣的观察。

在hadoop文档中使用the example

通过在独立操作和伪分布式操作中运行相同的示例,独立操作只需不到1分钟,但伪分布式操作花费的时间超过3分钟。这是很大的不同。我可以理解分布式模式有额外的网络和调度开销。但差异似乎太大了。这可能不是真正的比较,因为这个例子很简单。

我的问题是,您在实际工作的独立模式和分布式模式之间有多大差异?

2 个答案:

答案 0 :(得分:1)

这些是完全不同的情况。在独立模式下,它永远不会启动正确的单节点Hadoop集群。一切都在JVM中本地,内联发生。可能,数据甚至不必写入磁盘。伪分布式操作是一个本地节点的最小“真实”Hadoop安装。您必须将数据读/写到本地HDFS实例,生成另一个JVM等。所有这些都会增加很多开销。也许开销确实是几分钟。这对我来说似乎完全合情合理。

答案 1 :(得分:0)

Hadoop框架工作用于处理大数据..

因此,数据的大小非常重要,因为较小的文件在传统文件系统中的处理速度比hadoop快,因为hadoop mapreduce框架工作有内部工作要做(制作)大块的数据文件,并将其发送到数据节点,同时处理从数据节点再次访问)。因此,对于较小的文件,hadoop框架工作不适合。

进入独立和伪分布式模式,你应该考虑的一个方面是文件的大小,其次是独立和伪分布式模式的实际差异。

在独立模式下没有HDFS的概念,数据没有被复制到hadoop分布式文件系统(显然节省了时间)。在伪分布式模式中,涉及的hdfs需要与需要处理的数据一起复制

小尺寸数据文件更好地使用传统文件处理,如果文件大小变得庞大而且庞大,hadoop框架可以提供更好的处理时间! 希望这有帮助!