我们正在对hdfs文件执行grep。在本地文件上进行相同的搜索,可以更快地将结果与Hadoop作业进行比较。
Hadoop 2.9.9
数据节点:2
内存:每个数据节点上64GB RAM / 128GB交换
Hadoop文件块大小:128M
输入的hdfs文件大小为1GB gz格式
Hadoop作业命令:20分钟
本地grep命令:2分钟30秒
我们正在使用-Dmapred.map.tasks = 16 -Dmapred.reduce.tasks = 16个选项运行hadoop流命令。
我应该考虑的其他参数是什么?
预先感谢