在Hadoop Cluster上运行wordcount比在Eclipse上运行得慢

时间:2014-09-17 08:17:26

标签: eclipse hadoop mapreduce word-count

我有3台机器的Hadoop(版本:2.5.0)群集。

拓扑结构: 10.0.0.1 NameNode,DataNode 10.0.0.2 DataNode 10.0.0.3 DataNode

配置如下:

核心现场

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://10.0.0.1/</value>
                <final>true</final>
        </property>
</configuration>

HD​​FS-site.xml中

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:///home/tuannd/hdfs/namenode</value>
                <final>true</final>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///home/tuannd/hdfs/datanode</value>
                <final>true</final>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
</configuration>

mapred-site.xml中

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapredure.jobtracker.address</name>
                <value>10.0.0.1:9001</value>
                <final>true</final>
        </property>
        <property>
                <name>mapredure.cluster.local.dir</name>
                <value>/tmp/hadoop/mapredure/system</value>
                <final>true</final>
        </property>
        <property>
                <name>mapreduce.tasktracker.map.tasks.maximum</name>
                <value>7</value>
                <final>true</final>
        </property>
        <property>
                <name>mapreduce.tasktracker.reduce.tasks.maximum</name>
                <value>7</value>
                <final>true</final>
        </property>
        <property>
                <name>mapredure.map.tasks</name>
                <value>100</value>
        </property>
        <property>
                <name>mapredure.task.timeout</name>
                <value>0</value>
        </property>
        <property>
                <name>mapreduce.map.java.opts</name>
                <value>-Xmx512M</value>
        </property>
        <property>
                <name>mapreduce.reduce.java.opts</name>
                <value>-Xmx1024M</value>
        </property>
</configuration>

纱-site.xml中

<configuration>
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
<property>
        <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>8192</value>
</property>
</configuration>

从站

10.0.0.1
10.0.0.2
10.0.0.3

start-all.sh。 在主人身上:

19817 Jps
15240 ResourceManager
12521 SecondaryNameNode
12330 DataNode
12171 NameNode
15381 NodeManager

关于奴隶:

24454 NodeManager
22828 DataNode
24584 Jps

代码字数:相同的this link

使用相同的输入数据。

  • 在Eclipse(主机)上:在9s内处理。
  • 在Hadoop集群上:30秒内处理。

我不知道Hadoop集群配置文件有什么问题? Hadoop集群上的定时处理数据比eclipse慢!

感谢。

1 个答案:

答案 0 :(得分:0)

Hadoop很难缩小到小数据。由于该过程在9秒内完成,我假设您输入的数量很少。尝试使用一些GB输入数据运行程序,你会发现一些很大的不同。

考虑在本地版本中缺少的节点之间初始化任务和通信成本(网络)的成本。

提示:您还可以将SumReducer用作组合器,并在运行大数据时看到良好的速度提升。

更新:如果您使用的是作为链接提供的代码,那么问题是您使用的是单个reducer(默认情况下)。如果您使用更多减少任务(job.setNumReduceTasks(num);),您将看到并行化的好处,其中num可以根据提供的指示here指定(这些只是说明,而不是规则)。