文本文件可以直接从Spark输出到本地文件系统吗?

时间:2016-05-18 19:54:07

标签: hadoop apache-spark pyspark

使用RDD,我可以输出rdd.saveAsTextFile('directory'),将文件保存在hdfs://directory中。文本文件可以直接保存到本地文件系统上的目录(即directory)吗?

1 个答案:

答案 0 :(得分:1)

当然你可以......因为saveAsTextFile('目录')将保存与分区程序一样多的文件,你首先需要在复制到本地之前合并文件(除非你想复制每个文件到本地)。因此先打电话

FileUtil.copyMerge(sourceFileSystem, new Path(sourceFullPath), destFileSystem, new Path(destinationFullPath), true, sparkContext.hadoopConfiguration, null)

然后使用

FileSystem fs = FileSystem.get(yourConfiguration)
fs.copyToLocalFile(true, destinationFullPath, localFilePath)