我正在由20个节点组成的EC2集群中设置giraph。我遇到了许多困难,但我正在慢慢解决所有困难。现在,我怀疑与从http://giraph.apache.org/quick_start.html中提取的以下指令有关。为了使Giraph正常工作,始终需要将mapred.tasktracker.map.tasks.maximum和mapred.map.tasks设置为4吗?
来自http://giraph.apache.org/quick_start.html的说明:
使用
编辑mapred-site.xml<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.map.tasks</name>
<value>4</value>
</property>
*
默认情况下,Hadoop允许一次运行2个映射器。但是,Giraph的代码假定我们可以同时运行4个映射器。因此,对于此单节点伪分布式部署,我们需要在mapred-site.xml中添加最后两个属性以反映此要求。否则,Giraph的某些单元测试将失败。
*