应用错误收集

如何将不同从属机器中存在的Spark中的RDD保存到不同的S3位置

时间：2017-05-19 13:29:24

标签： scala apache-spark amazon-s3 emr

我想将存在于S3中的大文件分成多个块。

所以我试图通过将文件读入运行在具有多个实例的Amazon EMR上的Spark来解决这个问题（例如10个）。

这将创建大约10个RDD分区，这些分区存储在各个从属节点中。

在保存文件（rdd.saveAsTextfile（s3-path））时，如何为存储在不同节点中的单个RDD指定单独的路径？

0 个答案:

没有答案