如何使用s3fs处理大文件?

时间:2018-06-13 15:38:13

标签: python amazon-web-services

我正在使用AWS EMR Cluster。我有关于S3存储的数据。在我清理数据后,我将通过s3fs库再次发送到我的S3存储。该代码适用于大小介于200-500 mb之间的文件。但是,当我上传2.0到2.5 GB的大小。代码给出的错误是" MemoryError"。你们对这个问题有任何想法或经验吗?

import s3fs
bytes_to_write = nyc_green_20161.to_csv(None).encode()
fs = s3fs.S3FileSystem(key='#', secret='#')
with fs.open('s3://ludditiesnyctaxi/new/2016/yellow/yellow_1.csv', 'wb') as f:
f.write(bytes_to_write)

1 个答案:

答案 0 :(得分:0)

我处理此问题以拆分我的csv文件。这篇文章解释了如何拆分csv文件splitting one csv into multiple files in python