应用错误收集

Pyspark在纱线簇模式下将文件写入本地

时间：2019-07-16 11:29:45

标签： apache-spark hadoop pyspark yarn

我正在尝试运行pyspark代码。我的目标目录是本地目录。我要提交spark-submit命令的用户是超级用户，并且具有从hdfs读取文件并将文件写入本地的所有特权。

作业正在运行，没有任何错误，但是没有输出目录或正在创建的文件。

为了避免权限问题，我在我的Spark代码中将HADOOP_USER_NAME设置为超级用户。

有人可以帮忙吗

1 个答案:

答案 0 :(得分：0)

如果您正在YARN群集模式下运行，则YARN ApplicationMaster实际上在节点上运行，因此将在该节点本地写出。如果找到它所在的节点，则应该在其中找到输出目录和文件。