标签: apache-spark streaming spark-streaming
我需要编写一个使用临时文件的Spark应用程序。
我需要下载许多大文件,使用一些遗留代码读取它们,进行一些处理,删除文件,然后将结果写入数据库。
文件在S3上,需要很长时间才能下载。但是,我可以一次做很多,所以我想并行下载大量的数据。遗留代码从文件系统读取。
我想我无法避免创建临时文件。有关Spark代码读写本地文件的规则是什么?
这一定是一个常见问题,但我没有找到任何谈论它的线程或文档。有人可以给我一个指针吗?
非常感谢 P