应用错误收集

无法将RDD和DF保存在Spark群集中

时间：2016-09-22 04:23:21

标签： apache-spark rdd spark-dataframe

在单节点无群集模式下运行时，每当我执行rdd.saveAsTextFile("file://...")或df.write().csv("file://...")时，它会在part-files的路径创建一个文件夹，并在_SUCCESS创建一个文件。

但是当我在集群模式下使用相同的代码时，它不起作用。我没有抛出任何错误，但在该文件夹中没有创建part-files。虽然创建了文件夹和_SUCCESS文件，但实际的零件文件数据却没有。

我不确定这里究竟是什么问题。关于如何解决这个问题的任何建议都非常有用。

1 个答案:

答案 0 :(得分：0)

由于在群集模式下，任务在worker machines

中执行

如果您在群集模式下运行，则应尝试将文件保存在hadoop或S3或某些fileserver中，如ftp。