Question

在我们的群集中，我们设置了动态资源池。

设置规则，以便第一个纱线将查看指定的队列，然后查看用户名，然后查看主要组...

但是如果使用distcp我似乎无法指定队列，则只需将其设置为主要组。

这就是我现在运行它的方式（它不起作用）：

 hadoop distcp -Dmapred.job.queue.name:root.default .......

Answer 1

您在参数规范中犯了一个错误。

您不应使用“：”分隔键/值对。你应该使用“=”。

命令应为

 hadoop distcp -Dmapred.job.queue.name=root.default .......

Answer 2

-Dmapreduce.job.queuename = root.default

Answer 3

类似地，可以指示 hadoop存档定位自定义队列：

hadoop archive -Dmapreduce.job.queuename='<leaf.queue.name> ...

我以这种回应的机会为hadoop归档提供了提示：因为它将为每个要创建的文件创建一个地图任务（默认情况下，目标文件大小为2GB）。归档TB级数据时，这可能会导致成千上万张地图。

hadoop存档的部分*文件的大小由 undocumented har.partfile.size 控制：您可以通过设置更高的值（以字节为单位）来增加它比-Dhar.partfile.size=<value in bytes>

的2GiB