火花在多节点上将实木复合地板写入HDFS非常慢

时间:2018-12-05 18:02:06

标签: scala apache-spark hadoop hdfs parquet

我通过--master local[*]

运行了一个火花提交

但是当我在多节点集群上运行spark提交时 --master ip of master:port --deploy-mode client: 我的应用程序运行良好,直到将HDFS写入拼花地板为止,它没有停止,没有错误消息,什么也没有运行。 我在应用程序中检测到阻塞部分,它是:

resultDataFrame.write.parquet(path) 

我尝试过

resultDataFrame.repartition(1).write.parquet(path)

但还是一样...

预先感谢您的帮助

1 个答案:

答案 0 :(得分:0)

我能够看到您正在尝试将master用作local [*],它将在本地模式下运行spark作业,并且无法使用群集资源。

如果您正在集群上运行spark作业,则可以查找spark提交选项,例如master和yarn,而部署模式是cluster,这是下面提到的命令。

  

火花提交-**级-主纱-部署模式   cluster ** --conf = ...#其他选项    [应用程序参数]

一旦您使用yarn master运行spark作业并将其部署模式作为集群,它将尝试利用所有集群资源。