我有两个CSV数据集,分别为57 MB(387427L,22C)和32 MB(569400L,9C),并将它们加载到Pandas Dataframes。
p = pd.read_csv('Dataset/p_data.csv')
w = pd.read_csv('Dataset/w_data.csv')
当我尝试进行合并时,出现“内存错误”。我的计算机具有Intel i5和8GB内存,并且我将Conda与Python 3.6一起使用。
g = p.merge(w, on=['X_ID'])
我一直在寻找几种解决方案,例如使用Dask和Sqlite的变通方法,但是它们给我带来了同样的问题。 Arrow没有MERGE功能。
有人可以帮我吗?
答案 0 :(得分:0)
请尝试以下操作:
g = p.merge(w, on=['X_ID'], how = 'outer')
对我有用。