我是hadoop的新手。 我想检查一下我是否已经研究并质疑一个假设。
这是个主意。 例如,hadoop中的5个节点,1应该是master。 每个从节点都有1个MR任务。 - 在conf / mapred-site.xml中配置。
这是我研究过我运行hadoop的例子。 MR会自动决定字数中的地图任务编号。
Q1。它是否与块大小选项或其他东西相关联?
可以通过属性进行更改。当我运行PI和随机文本编写器时,它已被更改。
Q2。是否可以更改任何其他MR程序?我的意思是,在字数统计中,属性会影响地图任务的编号。
这是另一个想法。 在这种情况下,我有4个奴隶,2个地图任务。这意味着,它可以同时运行2个节点。
这只是假设。 JT制作2个地图任务,估计时间超过1小时。 这对表现没有好处。 2个节点未运行。如果使用4个节点进行映射,则可能更快。我想在作业运行时分离现有的地图。
Q3。这种假设的可能性。如果可以,请告诉我如何获得参考。
我在等你的建议。
谢谢大家。
答案 0 :(得分:0)
关于第一个问题,它与块大小和文件数有关, 例如,您有3,7 GB的数据,并且您有512 MB的数据大小,它为此创建了8个映射任务。此外,它与输入目录中的文件编号直接相关。对于目录中的每个文件,至少创建一个映射任务。您也可以通过编程方式增加(是的,这意味着您无法减少)地图任务。
答案 1 :(得分:-1)
感谢您的回答。
首先,我没有想到文件的数量。实际上,当MR在JVM中运行时,我对拆分地图感到好奇。我试图找一些信息,没用。
现在,我知道hadoop配置的重要性,尤其是针对MR的mapred-site.xml,我将更多地研究配置。
再次感谢你。