使用Java将spark RDD保存到本地文件系统

时间:2015-07-06 06:39:45

标签: java sql-server apache-spark hdfs rdd

我有一个使用Spark生成的RDD。现在,如果我将此RDD写入csv文件,我将获得一些方法,如" saveAsTextFile()"它将csv文件输出到HDFS。

我想将文件写入我的本地文件系统,以便我的SSIS进程可以从系统中选择文件并将它们加载到数据库中。

我目前无法使用sqoop。

除了编写shell脚本之外,它是否可以在Java中实现。

需要澄清,请告知。

1 个答案:

答案 0 :(得分:10)

saveAsTextFile能够接收本地文件系统路径(例如file:///tmp/magic/...)。但是,如果您在分布式群集上运行,则很可能希望将数据collect()返回到群集,然后使用标准文件操作进行保存。