无法将RDD和DF保存在Spark群集中

时间:2016-09-22 04:23:21

标签: apache-spark rdd spark-dataframe

在单节点无群集模式下运行时,每当我执行rdd.saveAsTextFile("file://...")df.write().csv("file://...")时,它会在part-files的路径创建一个文件夹,并在_SUCCESS创建一个文件。

但是当我在集群模式下使用相同的代码时,它不起作用。我没有抛出任何错误,但在该文件夹中没有创建part-files。虽然创建了文件夹和_SUCCESS文件,但实际的零件文件数据却没有。

我不确定这里究竟是什么问题。关于如何解决这个问题的任何建议都非常有用。

1 个答案:

答案 0 :(得分:0)

由于在群集模式下,任务在worker machines

中执行

如果您在群集模式下运行,则应尝试将文件保存在hadoopS3或某些fileserver中,如ftp