这个问题几乎是这里要求的复制品:Writing files to local system with Spark in Cluster mode
但是我的查询有点曲折。上面的页面使用spark将HDFS中的文件直接写入本地文件系统,但是将其转换为RDD之后。
我正在寻找仅数据框可用的选项;将海量数据转换为RDD会浪费资源。
答案 0 :(得分:1)
您可以使用以下语法将数据帧直接写入HDFS文件系统。
df.write.format("csv").save("path in hdfs")
有关更多详细信息,请参见spark文档:https://spark.apache.org/docs/2.2.0/sql-programming-guide.html#generic-loadsave-functions