使用boto3从S3下载大文本文件

时间:2018-06-28 14:54:10

标签: python amazon-s3 boto3

我公司的分析团队每天在S3中上载CSV文件,该文件通常为300MB,但仍在不断增加。我必须实现的lambda函数需要读取该文件并处理每一行。

我对此的主要担心是文件的巨大大小可能会在我的lambda的执行上下文中导致内存问题。 boto3有什么方法可以从S3作为流下载此文件并在下载时读取它?如果没有,我应该采取哪种方法来解决这种情况?

谢谢。

1 个答案:

答案 0 :(得分:2)

在我提出问题之后,我才发现智能开放:https://github.com/RaRe-Technologies/smart_open/tree/master/smart_open,它非常优雅地处理了我的问题。