Question

在S3中，我有两个CSV文件，一个约为60 GB，另一个约为70GB。我需要将两个CSV文件都加载到pandas数据帧中，并执行诸如对数据的联接和合并之类的操作。

我有一个EC2实例，该实例具有足够的内存量，可以将两个数据帧一次加载到内存中。

从S3读取大文件到pandas数据框的最佳方法是什么？

在我对数据帧执行所需的操作之后，输出数据帧也应重新上传到S3。

将巨大的csv文件上传到S3的最佳方法是什么？

Answer 1

要阅读S3，可以执行以下操作：

mExampleList.contains(ex)

然后在此数据帧上进行所有联接和合并，然后将其上传回S3：

import pandas as pd

df = pd.read_csv('s3://bucket-name/file.csv')