在Spark中使用本地分区

时间:2018-03-20 14:40:54

标签: apache-spark rdd

我有一个巨大的文件存储在S3中并将ii加载到我的Spark Cluster中,我想调用一个自定义Java库,它接受输入文件位置,处理数据并写入给定的输出位置。我怎么也不能在Spark中重写那个自定义逻辑。

我正在尝试查看是否可以从S3加载文件并将分区保存到本地磁盘并将该位置提供给自定义Java应用程序,并在处理后加载所有分区并将其保存到S3中。

这可能吗?到目前为止我读过的内容看起来我需要使用RDD Api。但无法找到有关如何将每个分区保存到本地磁盘的更多信息。

感谢任何输入。

0 个答案:

没有答案