我公司的分析团队每天在S3中上载CSV文件,该文件通常为300MB,但仍在不断增加。我必须实现的lambda函数需要读取该文件并处理每一行。
我对此的主要担心是文件的巨大大小可能会在我的lambda的执行上下文中导致内存问题。 boto3有什么方法可以从S3作为流下载此文件并在下载时读取它?如果没有,我应该采取哪种方法来解决这种情况?
谢谢。
答案 0 :(得分:2)
在我提出问题之后,我才发现智能开放:https://github.com/RaRe-Technologies/smart_open/tree/master/smart_open,它非常优雅地处理了我的问题。