Hadoop:为distcp指定yarn队列

时间:2015-11-05 09:25:01

标签: hadoop yarn distcp

在我们的群集中,我们设置了动态资源池。

设置规则,以便第一个纱线将查看指定的队列,然后查看用户名,然后查看主要组...

但是如果使用distcp我似乎无法指定队列,则只需将其设置为主要组。

这就是我现在运行它的方式(它不起作用):

 hadoop distcp -Dmapred.job.queue.name:root.default .......

3 个答案:

答案 0 :(得分:17)

您在参数规范中犯了一个错误。

您不应使用“:”分隔键/值对。你应该使用“=”。

命令应为

 hadoop distcp -Dmapred.job.queue.name=root.default .......

答案 1 :(得分:6)

-Dmapreduce.job.queuename = root.default

答案 2 :(得分:1)

类似地,可以指示 hadoop存档定位自定义队列:

hadoop archive -Dmapreduce.job.queuename='<leaf.queue.name> ...

我以这种回应的机会为hadoop归档提供了提示: 因为它将为每个要创建的文件创建一个地图任务(默认情况下,目标文件大小为2GB)。归档TB级数据时,这可能会导致成千上万张地图。

hadoop存档的部分*文件的大小由 undocumented har.partfile.size 控制:您可以通过设置更高的值(以字节为单位)来增加它比-Dhar.partfile.size=<value in bytes>

的2GiB