将100gb数据帧与熊猫合并

时间:2020-11-09 14:49:48

标签: python pandas dataframe

我有两个TSV文件,都大约100GB。
我只是尝试加载和合并它们,然后将其导出到另一个TSV文件。
Ofc我遇到内存错误(我的计算机上有16GB RAM)。

我考虑过使用chunksize参数,但是即使我这样做了-我希望当我加载两个数据帧而没有内存错误时,合并的df会存储在我的内存中的合并部分会发生错误

我也可以分块导出数据帧吗?意思是在我合并处理了这2个数据帧中的2个块之后,可以将它们导出到文件中吗?

为清楚起见,一个伪代码看起来像

df1 = pd.read_csv(...., chunksize=1000)
df2 = pd.read_csv(...., chunksize=1000)

for a, b in zip(df1, df2):
    merge_and_export_to_csv (appending on every iteration)

0 个答案:

没有答案