我有两个要合并的CSV文件。有了熊猫我会用:
pd.merge(df1,df2,how =' left',left_on =' ST_LOGINID',right_on =' LOGINID')
然而,panda执行此操作时内存不足(" MemoryError:"),但在返回错误之前,我的RAM使用率仅从4GB的1.9GB变为2.2GB。
我正在寻找以下任何一种解决方案: 1)执行这种合并/连接操作而不将文件加载到内存中的一种方法 2)允许pandas使用更多RAM的一种方法,因为它似乎有足够的可用内存。
答案 0 :(得分:3)
答案 1 :(得分:-1)
如果你有大量的CSV数据,NYSOL's mcmd是最好的。
mjoin k=ST_LOGINID K=LOGINID m=df2.csv i=df1.csv o=output.csv
它首先运行!
查看更多详情here。