Pyspark在纱线簇模式下将文件写入本地

时间:2019-07-16 11:29:45

标签: apache-spark hadoop pyspark yarn

我正在尝试运行pyspark代码。我的目标目录是本地目录。我要提交spark-submit命令的用户是超级用户,并且具有从hdfs读取文件并将文件写入本地的所有特权。

作业正在运行,没有任何错误,但是没有输出目录或正在创建的文件。

为了避免权限问题,我在我的Spark代码中将HADOOP_USER_NAME设置为超级用户。

有人可以帮忙吗

1 个答案:

答案 0 :(得分:0)

如果您正在YARN群集模式下运行,则YARN ApplicationMaster实际上在节点上运行,因此将在该节点本地写出。如果找到它所在的节点,则应该在其中找到输出目录和文件。