我需要合并两个df
,a
和b
。 a
有大约250万行,b
大约有500行。从a
直接读取b
和mongoDB
,使用列表转换为df
,代码为,
unique_b = b[['id', 'name']]
unique_b.drop_duplicates()
a = pd.merge(a, unique_b[['id', 'name']], how='left', on='id')
现在merge
不仅会导致MemoryError
,而且需要很长时间(从不停止)来处理合并,以防有足够的内存。我想知道如何在内存使用和时间方面优化此pandas
数据帧合并。