Spark:如何阅读&写临时文件?

时间:2015-07-07 23:02:13

标签: apache-spark streaming spark-streaming

我需要编写一个使用临时文件的Spark应用程序。

我需要下载许多大文件,使用一些遗留代码读取它们,进行一些处理,删除文件,然后将结果写入数据库。

文件在S3上,需要很长时间才能下载。但是,我可以一次做很多,所以我想并行下载大量的数据。遗留代码从文件系统读取。

我想我无法避免创建临时文件。有关Spark代码读写本地文件的规则是什么?

这一定是一个常见问题,但我没有找到任何谈论它的线程或文档。有人可以给我一个指针吗?

非常感谢 P

0 个答案:

没有答案