如何将不同从属机器中存在的Spark中的RDD保存到不同的S3位置

时间:2017-05-19 13:29:24

标签: scala apache-spark amazon-s3 emr

我想将存在于S3中的大文件分成多个块。

所以我试图通过将文件读入运行在具有多个实例的Amazon EMR上的Spark来解决这个问题(例如10个)。

这将创建大约10个RDD分区,这些分区存储在各个从属节点中。

在保存文件(rdd.saveAsTextfile(s3-path))时,如何为存储在不同节点中的单个RDD指定单独的路径?

0 个答案:

没有答案