我希望在一个hdfs集群(yarn master)上运行spark,但希望从另一个hdfs集群访问数据集。
两个hdfs群集都被重新编号,并且两个ID都具有访问权限。
步骤进行:
- 为第一个hdfs群集设置env
- spark-shell --master yarn-client
- sc.textFile(“hdfs:// [secondshdfscluster] [dataset there]
- res0.count(*)给出
......
引起:org.apache.hadoop.security.AccessControlException:客户端无法通过以下方式进行身份验证:[TOKEN,KERBEROS]
.....
醇>
我正在尝试甚至可能吗?如果有,有任何建议可以解决吗?