将4GB文件上传到Amazon-S3

时间:2011-03-28 09:15:03

标签: xml amazon-s3 amazon-ec2 hadoop mapreduce

我正在做一些非常简单的数据挖掘(实际上只是一个wordcound)作为我本科项目的研究项目。

我将使用Amazon Elastic MapReduce。

我需要上传4GB .xml文件。

最好的方法是什么?

上传小型zip文件并以某种方式将它们解压缩到存储桶中? 或拆分文件,上传然后使用所有小文件进行流式MapReduce作业?

由于

3 个答案:

答案 0 :(得分:0)

你应该将这个xml放入一个序列文件中,然后将它bzip2,或者bzip2它并在云中解压缩它。

答案 1 :(得分:0)

如果您想上传一个大文件,S3支持多部分上传。有关详细信息,请从documentation page开始。

答案 2 :(得分:0)

如果目标是将这些数据放入EMR(Spark或Flink等),则更希望使用多个压缩的小文件来利用加载时的并行性,例如,EMR Spark可以处理tar / zip压缩文件默认情况下来自S3。