从S3读取数据到熊猫的最佳方法

时间:2020-05-05 20:07:56

标签: python pandas amazon-web-services amazon-s3 amazon-ec2

在S3中,我有两个CSV文件,一个约为60 GB,另一个约为70GB。我需要将两个CSV文件都加载到pandas数据帧中,并执行诸如对数据的联接和合并之类的操作。

我有一个EC2实例,该实例具有足够的内存量,可以将两个数据帧一次加载到内存中。

从S3读取大文件到pandas数据框的最佳方法是什么?

在我对数据帧执行所需的操作之后,输出数据帧也应重新上传到S3。

将巨大的csv文件上传到S3的最佳方法是什么?

1 个答案:

答案 0 :(得分:1)

要阅读S3,可以执行以下操作:

mExampleList.contains(ex)

然后在此数据帧上进行所有联接和合并,然后将其上传回S3:

import pandas as pd

df = pd.read_csv('s3://bucket-name/file.csv')