应用错误收集

时间：2011-03-28 09:15:03

标签： xml amazon-s3 amazon-ec2 hadoop mapreduce

我正在做一些非常简单的数据挖掘（实际上只是一个wordcound）作为我本科项目的研究项目。

我将使用Amazon Elastic MapReduce。

我需要上传4GB .xml文件。

最好的方法是什么？

上传小型zip文件并以某种方式将它们解压缩到存储桶中？或拆分文件，上传然后使用所有小文件进行流式MapReduce作业？

由于

答案 0 :(得分：0)

你应该将这个xml放入一个序列文件中，然后将它bzip2，或者bzip2它并在云中解压缩它。

答案 1 :(得分：0)

如果您想上传一个大文件，S3支持多部分上传。有关详细信息，请从documentation page开始。

答案 2 :(得分：0)

如果目标是将这些数据放入EMR（Spark或Flink等），则更希望使用多个压缩的小文件来利用加载时的并行性，例如，EMR Spark可以处理tar / zip压缩文件默认情况下来自S3。