Spark - 纱线主数据但不同hdfs集群上的数据集

时间:2017-03-14 20:16:50

标签: apache-spark

我希望在一个hdfs集群(yarn master)上运行spark,但希望从另一个hdfs集群访问数据集。

两个hdfs群集都被重新编号,并且两个ID都具有访问权限。

步骤进行:

  1. 为第一个hdfs群集设置env
  2. spark-shell --master yarn-client
  3. sc.textFile(“hdfs:// [secondshdfscluster] [dataset there]
  4. res0.count(*)给出 ...... 引起:org.apache.hadoop.security.AccessControlException:客户端无法通过以下方式进行身份验证:[TOKEN,KERBEROS] .....
  5. 我正在尝试甚至可能吗?如果有,有任何建议可以解决吗?

0 个答案:

没有答案