根据凌乱的地址列合并两个数据帧

时间:2019-09-23 13:01:14

标签: python pandas merge

我有两个数据框(一个数据框包含170万套伦敦房屋,另一个数据包在一年内有60,000笔交易)

两个数据帧都有地址列,但是它们很杂乱,因此我将它们串联到一个组合地址列中,我也有邮政编码,但是它们已从组合地址列中排除。

我基本上需要执行Vlookup操作,以将170万套房屋合并到60,000个交易数据框中,这样我才能获得所有已出售房屋的内部面积,并确定所有这些交易的每平方英尺价格。

困难的部分是数据帧之间没有相互一致的索引,我在两个数据帧中都组合了addresss列,但是将它们用作匹配仍然非常混乱,合并后的结果似乎给了我NaN值进入交易数据框。这是我到目前为止的代码:

df1 = pd.read_csv('London.csv')
df2 = pd.read_csv('HPI London 18.csv')
pricepersqft = df1.merge(df2, on='Combined Address', how='right')

我想知道是否需要以某种方式使其首先与邮政编码进行自定义匹配,然后如果邮政编码已匹配,则与房屋或单位编号进行匹配?

任何有关如何正确执行此操作的想法将不胜感激。

0 个答案:

没有答案