合并两个没有熊猫的csv

时间:2014-11-12 00:24:10

标签: python csv pandas merge

我有两个要合并的CSV文件。有了熊猫我会用:

  

pd.merge(df1,df2,how =' left',left_on =' ST_LOGINID',right_on =' LOGINID')

然而,panda执行此操作时内存不足(" MemoryError:"),但在返回错误之前,我的RAM使用率仅从4GB的1.9GB变为2.2GB。

我正在寻找以下任何一种解决方案: 1)执行这种合并/连接操作而不将文件加载到内存中的一种方法 2)允许pandas使用更多RAM的一种方法,因为它似乎有足够的可用内存。

2 个答案:

答案 0 :(得分:3)

尝试csvkit

首先安装:

pip install csvkit

然后:

csvjoin -c "ST_LOGINID, LOGINID" --outer file1.csv file2.csv

答案 1 :(得分:-1)

如果你有大量的CSV数据,NYSOL's mcmd是最好的。

mjoin k=ST_LOGINID K=LOGINID m=df2.csv i=df1.csv o=output.csv

它首先运行!

查看更多详情here