火花提交在群集模式下失败,错误为13,Pyspark作业的权限被拒绝

时间:2020-07-11 15:47:41

标签: python apache-spark pyspark cloudera-cdh

我们在默认Python 2.7附带的RHEL 7计算机中安装了cloudera CDH 6.2。在虚拟环境中使用python 3.7进行火花提交pyspark作业。使用--master local和--deploy-mode客户端的客户端模式可以正常工作。但是,--master纱线和--deploy-mode群集存在问题。

此命令 spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/home/user/R1_I5/bin/python --conf spark.yarn.appMasterEnv.SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark --conf spark.executorEnv.SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark sample.py 失败,出现以下2个错误

案例1错误日志:-部署模式群集

Cannot run program "/home/user/R1_I5/bin/python": error=13, Permission denied 详细日志:https://drive.google.com/file/d/1J7HLNGABnStJ91ISHFBMdNe5OLEUQZ6B/view

案例2错误日志:-主纱线

下面的2行重复出现而没有终止程序

INFO yarn.Client: Application report for application_1594339922772_0012 (state: ACCEPTED)
INFO yarn.SparkRackResolver: Got an error when resolving hostNames. Falling back to /default-rack for all

1 个答案:

答案 0 :(得分:0)

  1. 您需要检查目录“ hdfs:// dwh:8020 / user //。sparkStaging / application_1594339922772_0011”的权限,并查看与之一起运行程序的用户对其具有访问权限。正确的方法是在“ hdfs:// dwh:8020 / user / username”下创建一个“用户名”目录并运行它。
  2. 检查主机的主机名,这里的问题是它试图连接到配置中提到的主机,但找不到它。 您可以输入。转到Cloudera Manager并使用重新部署配置选项, 检查/ etc / hosts,看看它是否与Cloudera管理器中提到的主机名匹配。