在S3中,我有两个CSV文件,一个约为60 GB,另一个约为70GB。我需要将两个CSV文件都加载到pandas数据帧中,并执行诸如对数据的联接和合并之类的操作。
我有一个EC2实例,该实例具有足够的内存量,可以将两个数据帧一次加载到内存中。
从S3读取大文件到pandas数据框的最佳方法是什么?
在我对数据帧执行所需的操作之后,输出数据帧也应重新上传到S3。
将巨大的csv文件上传到S3的最佳方法是什么?
答案 0 :(得分:1)
要阅读S3,可以执行以下操作:
mExampleList.contains(ex)
然后在此数据帧上进行所有联接和合并,然后将其上传回S3:
import pandas as pd
df = pd.read_csv('s3://bucket-name/file.csv')