纱线群集上的火花scala csv export

时间:2017-09-13 10:29:43

标签: apache-spark hdfs cluster-computing yarn

我有一个5节点集群,部署了YARN。 2个名称节点和3个数据节点。虽然我的代码是在spark中提交的。我正在尝试将数据导出到csv,但是当我这样做时,数据会导出到2个数据节点,并且两者在导出文件夹中都会有不同的内容。一个将具有_SUCCESS文件,另一个将具有导出的csv(part- *)。我的应用程序最终有一个空白路径,因为有时具有_SUCCESS文件的节点和运行应用程序的节点是相同的,但实际的csv在另一个节点中。有时候也没有创建_SUCCESS文件但是创建了部分 - * .csv但是在另一个节点中,在这种情况下,如果应用程序没有再次在同一个节点上运行,我最终会再次出现一个空白路径。我正在使用以下方式:

dataframe.coalesce(1).write.option( “头”, “真”)。CSV(路径)

1 个答案:

答案 0 :(得分:0)

而不是file:/// 你为什么不给hdfs / s3位置?

当您提供本地路径时,数据将存储在工作节点上!你可能有2个节点而不是3个节点的数据,因为那里有2个分区。