Question

我在集群模式下使用没有HDFS的Spark 1.5来构建应用程序。我想知道，在进行保存操作时，例如，

df.write.parquet("...")

哪些数据存储在哪里？是所有数据都存储在主服务器上，还是每个工作人员都存储其本地数据？

Answer 1

一般来说，所有工作节点都会对其本地文件系统执行写操作，驱动程序只编写_SUCCESS文件。