有很多内容解释数据位置以及MapReduce
和HDFS
如何在多节点群集上运行。但我找不到有关单节点设置的更多信息。在过去三个月我正在试验Hadoop
我总是阅读有关映射器和缩减器数量的教程和线程,并编写自定义分区器来优化作业,但我一直认为,它是否适用于单个节点集群?
与多节点群集相比,单个节点群集上运行MapReduce
个作业的丢失量是多少?
在这种情况下,拆分输入数据所提供的并行性是否仍适用?
从单个节点HDFS
读取输入和从本地文件系统读取有什么区别?
我认为由于我的经验不足,我无法清楚地回答这些问题,所以对任何帮助表示赞赏!
提前致谢!
编辑:我了解Hadoop不适合单节点设置,因为@ TC1列出了所有因素。那么,设置伪分布式Hadoop环境有什么好处呢?
答案 0 :(得分:3)
我总是阅读关于映射器和缩减器数量的教程和线程,并编写自定义分区器来优化作业,但我一直认为,它是否适用于单个节点集群?
与多节点群集相比,单节点群集上运行MapReduce作业的损失是什么?
在这种情况下,拆分输入数据所提供的并行性是否仍适用?
从单个节点HDFS读取输入和从本地文件系统读取有什么区别?
几乎不存在。
是HDFS的想法在单个节点上运行时,这些都是没有意义的。
编辑:
“单节点”和“伪分布”之间的区别在于,在单模式下,所有Hadoop进程都在单个JVM上运行。没有涉及网络通信,甚至没有涉及localhost
等。即使只是在小数据上测试作业,我也建议使用伪分布,因为它与集群基本相同。