我在我的hadoop集群中启用了权限管理,但是我在使用pig发送作业时遇到了问题。这是场景:
1 - 我有hadoop / hadoop用户
2 - 我有运行PIG脚本的myuserapp / myuserapp用户。
3 - 我们设置myuserapp所拥有的路径/ myapp
4 - 我们将pig.temp.dir设置为/ myapp / pig / tmp
但是当我们试图运行这些工作时,我们得到了以下错误:
job_201303221059_0009 all_actions,filtered,raw_data DISTINCT Message: Job failed! Error - Job initialization failed: org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=realtime, access=EXECUTE, inode="system":hadoop:supergroup:rwx------
Hadoop jobtracker需要此权限才能对其服务器进行statup。
我的hadoop政策如下:
<property>
<name>security.client.datanode.protocol.acl</name>
<value>hadoop,myuserapp supergroup,myuserapp</value>
</property>
<property>
<name>security.inter.tracker.protocol.acl</name>
<value>hadoop,myuserapp supergroup,myuserapp</value>
</property>
<property>
<name>security.job.submission.protocol.acl</name>
<value>hadoop,myuserapp supergroup,myuserapp</value>
<property>
我的hdfs-site.xml:
<property>
<name>dfs.permissions</name>
<value>true</value>
</property>
<property>
<name>dfs.datanode.data.dir.perm</name>
<value>755</value>
</property>
<property>
<name>dfs.web.ugi</name>
<value>hadoop,supergroup</value>
</property>
我的核心网站:
...
<property>
<name>hadoop.security.authorization</name>
<value>true</value>
</property>
...
最后是我的mapred-site.xml
...
<property>
<name>mapred.local.dir</name>
<value>/tmp/mapred</value>
</property>
<property>
<name>mapreduce.jobtracker.jobhistory.location</name>
<value>/opt/logs/hadoop/history</value>
</property>
是否缺少配置?如何处理在限制HDFS群集中运行作业的多个用户?
答案 0 :(得分:1)
您的问题可能是暂存目录。尝试将此属性添加到mapred-site.xml:
<property>
<name>mapreduce.jobtracker.staging.root.dir</name>
<value>/user</value>
</property>
然后确保提交用户(例如'realtime')有一个主目录(例如'/ user / realtime')并且他们拥有它。
答案 1 :(得分:0)
公平调度程序旨在以用户身份运行map reduce作业,并为用户/组创建separeted池,但具有共享资源。初看起来,此调度程序存在一些与某些目录的权限相关的问题,这些目录不允许其他用户在作业运行所必需的位置执行/写入。
因此,一种解决方案是使用容量调度程序:
<property>
<name>mapred.jobtracker.taskScheduler</name>
<value>org.apache.hadoop.mapred.CapacityTaskScheduler</value>
</property>
Capacity Scheduler,使用多个命名队列,其中每个队列都有一个可配置数量的map和reduce槽。容量的一个好处是能够限制每个用户运行任务的百分比,以便用户共享具有配额的集群。