azure - 快速将MultipleTextOutputFormat生成的文件写入云存储（Azure，S3等）

我有一个Spark作业，它从Hive表中获取数据，对其进行转换，最后给我一个包含文件名和该文件内容值的RDD。然后我将它传递给自定义的OutputFormat，它根据这些键创建单个文件。最终结果是大约2000万个文件，每个文件的大小约为1-10MB。

我的问题是现在有效地将这些文件写入我的最终目的地。我不能把它们放在HDFS中，因为2000万个小文件很快就会让HDFS陷入停顿。如果我尝试直接写入我的云存储，它会变得很慢，因为看起来每个任务都会按顺序上传每个文件。我很想听听我可以用来加速这个过程的任何技术，以便尽可能多地并行上传文件。