标签: scala apache-spark amazon-s3 emr
我想将存在于S3中的大文件分成多个块。
所以我试图通过将文件读入运行在具有多个实例的Amazon EMR上的Spark来解决这个问题(例如10个)。
这将创建大约10个RDD分区,这些分区存储在各个从属节点中。
在保存文件(rdd.saveAsTextfile(s3-path))时,如何为存储在不同节点中的单个RDD指定单独的路径?