快速将MultipleTextOutputFormat生成的文件写入云存储(Azure,S3等)

时间:2015-04-02 02:42:51

标签: azure hadoop amazon-s3 hive apache-spark

我有一个Spark作业,它从Hive表中获取数据,对其进行转换,最后给我一个包含文件名和该文件内容值的RDD。然后我将它传递给自定义的OutputFormat,它根据这些键创建单个文件。最终结果是大约2000万个文件,每个文件的大小约为1-10MB。

我的问题是现在有效地将这些文件写入我的最终目的地。我不能把它们放在HDFS中,因为2000万个小文件很快就会让HDFS陷入停顿。如果我尝试直接写入我的云存储,它会变得很慢,因为看起来每个任务都会按顺序上传每个文件。我很想听听我可以用来加速这个过程的任何技术,以便尽可能多地并行上传文件。

0 个答案:

没有答案