我正在做一些非常简单的数据挖掘(实际上只是一个wordcound)作为我本科项目的研究项目。
我将使用Amazon Elastic MapReduce。
我需要上传4GB .xml文件。
最好的方法是什么?
上传小型zip文件并以某种方式将它们解压缩到存储桶中? 或拆分文件,上传然后使用所有小文件进行流式MapReduce作业?
由于
答案 0 :(得分:0)
你应该将这个xml放入一个序列文件中,然后将它bzip2,或者bzip2它并在云中解压缩它。
答案 1 :(得分:0)
如果您想上传一个大文件,S3支持多部分上传。有关详细信息,请从documentation page开始。
答案 2 :(得分:0)
如果目标是将这些数据放入EMR(Spark或Flink等),则更希望使用多个压缩的小文件来利用加载时的并行性,例如,EMR Spark可以处理tar / zip压缩文件默认情况下来自S3。