Question

我有两个要合并的CSV文件。有了熊猫我会用：

pd.merge（df1，df2，how =＆＃39; left＆＃39;，left_on =＆＃39; ST_LOGINID＆＃39;，right_on =＆＃39; LOGINID＆＃39;）

然而，panda执行此操作时内存不足（＆＃34; MemoryError：＆＃34;），但在返回错误之前，我的RAM使用率仅从4GB的1.9GB变为2.2GB。

我正在寻找以下任何一种解决方案： 1）执行这种合并/连接操作而不将文件加载到内存中的一种方法 2）允许pandas使用更多RAM的一种方法，因为它似乎有足够的可用内存。

Answer 1

尝试csvkit：

首先安装：

pip install csvkit

然后：

csvjoin -c "ST_LOGINID, LOGINID" --outer file1.csv file2.csv

Answer 2

如果你有大量的CSV数据，NYSOL's mcmd是最好的。

mjoin k=ST_LOGINID K=LOGINID m=df2.csv i=df1.csv o=output.csv

它首先运行！

查看更多详情here。