在我们的群集中,我们设置了动态资源池。
设置规则,以便第一个纱线将查看指定的队列,然后查看用户名,然后查看主要组...
但是如果使用distcp我似乎无法指定队列,则只需将其设置为主要组。
这就是我现在运行它的方式(它不起作用):
hadoop distcp -Dmapred.job.queue.name:root.default .......
答案 0 :(得分:17)
您在参数规范中犯了一个错误。
您不应使用“:”分隔键/值对。你应该使用“=”。
命令应为
hadoop distcp -Dmapred.job.queue.name=root.default .......
答案 1 :(得分:6)
-Dmapreduce.job.queuename = root.default
答案 2 :(得分:1)
类似地,可以指示 hadoop存档定位自定义队列:
hadoop archive -Dmapreduce.job.queuename='<leaf.queue.name> ...
我以这种回应的机会为hadoop归档提供了提示: 因为它将为每个要创建的文件创建一个地图任务(默认情况下,目标文件大小为2GB)。归档TB级数据时,这可能会导致成千上万张地图。
hadoop存档的部分*文件的大小由 undocumented har.partfile.size 控制:您可以通过设置更高的值(以字节为单位)来增加它比-Dhar.partfile.size=<value in bytes>