Question

我通过--master local[*]，

运行了一个火花提交

但是当我在多节点集群上运行spark提交时 --master ip of master:port --deploy-mode client：我的应用程序运行良好，直到将HDFS写入拼花地板为止，它没有停止，没有错误消息，什么也没有运行。我在应用程序中检测到阻塞部分，它是：

resultDataFrame.write.parquet(path)

我尝试过

resultDataFrame.repartition(1).write.parquet(path)

但还是一样...

预先感谢您的帮助

Answer 1

我能够看到您正在尝试将master用作local [*]，它将在本地模式下运行spark作业，并且无法使用群集资源。

如果您正在集群上运行spark作业，则可以查找spark提交选项，例如master和yarn，而部署模式是cluster，这是下面提到的命令。

火花提交-**级-主纱-部署模式 cluster ** --conf = ...＃其他选项 [应用程序参数]

一旦您使用yarn master运行spark作业并将其部署模式作为集群，它将尝试利用所有集群资源。