Hadoop中的伪分布式和全分布式模式之间是否存在显着的性能差异?

时间:2018-03-31 04:48:19

标签: hadoop

我正在阅读Hadoop的文档,我发现了这个:

  

“提供独立模式和伪分布模式都是为了进行小规模测试”。

我有2个问题。

首先,有多大被视为小规模,更具体地说,我将使用最多32个节点,我可以在伪分布式模式下运行吗?

其次,即使是小规模,伪分布式还是全分布式模式之间是否存在性能差异?因为,我在我的Mac上运行hadoop,而且我很难找到一个真正的集群系统。我还有什么需要注意的吗?

1 个答案:

答案 0 :(得分:0)

  

最多32个节点,我可以在伪分布式模式下运行吗?

Pseudo distributed特指您只有一个节点。这意味着所有Hadoop服务都能够相互通信,就好像它们位于外部接口(不是所有localhost)连接上,并且使用HDFS而不仅仅是本地文件系统。

要创建“分布式模式”群集,可以使用正确的配置向单个节点添加其他节点。提示:Apache Ambari会使这个过程变得更加容易。

但是,默认情况下,HDFS希望能够复制块至少三次,并且为了适应这些服务中的停机时间,5个节点是最好的。我还建议您使用3-5 Zookeeper服务器的独立安装在群集中设置高可用性