Question

我正在使用AWS EMR Cluster。我有关于S3存储的数据。在我清理数据后，我将通过s3fs库再次发送到我的S3存储。该代码适用于大小介于200-500 mb之间的文件。但是，当我上传2.0到2.5 GB的大小。代码给出的错误是＆＃34; MemoryError＆＃34;。你们对这个问题有任何想法或经验吗？

import s3fs
bytes_to_write = nyc_green_20161.to_csv(None).encode()
fs = s3fs.S3FileSystem(key='#', secret='#')
with fs.open('s3://ludditiesnyctaxi/new/2016/yellow/yellow_1.csv', 'wb') as f:
f.write(bytes_to_write)

Answer 1

我处理此问题以拆分我的csv文件。这篇文章解释了如何拆分csv文件splitting one csv into multiple files in python

如何使用s3fs处理大文件？

1 个答案: