我在S3存储桶上从客户端收到非常大的(5TB).csv文件。我必须处理这些文件,向它们添加列并将它们存储回来。
我可能需要以与增加未来改进模型的功能数量相同的方式处理文件。
显然因为S3将数据存储为对象,所以每次进行更改时,我都必须读取和写入5TB的数据。
我可以采取哪种最佳方法来经济有效地处理这些数据:
谢谢
答案 0 :(得分:1)
首先,警告 - Amazon S3中对象的最大大小为5TB 。如果您要添加导致更大对象的信息,那么您可能会达到该限制。
处理这一数据量的更智能方法是在并行中进行,最好是在多个较小的文件中,而不是单个5TB文件。
Amazon EMR (实际上,托管Hadoop环境)非常适合在大型数据集中执行分布式操作。它可以并行处理来自多个文件的数据,并可以即时压缩/解压缩数据。学习起来很复杂,但非常有效率和能力。
如果您坚持使用当前处理数据的方法,我建议: