我有两个数据框(一个数据框包含170万套伦敦房屋,另一个数据包在一年内有60,000笔交易)
两个数据帧都有地址列,但是它们很杂乱,因此我将它们串联到一个组合地址列中,我也有邮政编码,但是它们已从组合地址列中排除。
我基本上需要执行Vlookup操作,以将170万套房屋合并到60,000个交易数据框中,这样我才能获得所有已出售房屋的内部面积,并确定所有这些交易的每平方英尺价格。
困难的部分是数据帧之间没有相互一致的索引,我在两个数据帧中都组合了addresss列,但是将它们用作匹配仍然非常混乱,合并后的结果似乎给了我NaN值进入交易数据框。这是我到目前为止的代码:
df1 = pd.read_csv('London.csv')
df2 = pd.read_csv('HPI London 18.csv')
pricepersqft = df1.merge(df2, on='Combined Address', how='right')
我想知道是否需要以某种方式使其首先与邮政编码进行自定义匹配,然后如果邮政编码已匹配,则与房屋或单位编号进行匹配?
任何有关如何正确执行此操作的想法将不胜感激。