apache-spark - Spark：如何阅读＆amp;写临时文件？ - Thinbug

Spark：如何阅读＆amp;写临时文件？

时间：2015-07-07 23:02:13

标签： apache-spark streaming spark-streaming

我需要编写一个使用临时文件的Spark应用程序。

我需要下载许多大文件，使用一些遗留代码读取它们，进行一些处理，删除文件，然后将结果写入数据库。

文件在S3上，需要很长时间才能下载。但是，我可以一次做很多，所以我想并行下载大量的数据。遗留代码从文件系统读取。

我想我无法避免创建临时文件。有关Spark代码读写本地文件的规则是什么？

这一定是一个常见问题，但我没有找到任何谈论它的线程或文档。有人可以给我一个指针吗？

非常感谢 P

0 个答案:

没有答案