Hadoop作业执行缓慢

时间:2019-03-05 06:58:38

标签: hadoop streaming


我们正在对hdfs文件执行grep。在本地文件上进行相同的搜索,可以更快地将结果与Hadoop作业进行比较。

Hadoop 2.9.9
数据节点:2
内存:每个数据节点上64GB RAM / 128GB交换
Hadoop文件块大小:128M
输入的hdfs文件大小为1GB gz格式

Hadoop作业命令:20分钟
本地grep命令:2分钟30秒

我们正在使用-Dmapred.map.tasks = 16 -Dmapred.reduce.tasks = 16个选项运行hadoop流命令。
我应该考虑的其他参数是什么?

预先感谢

0 个答案:

没有答案