查找两个熊猫数据框之间的部分字符串匹配的最快方法

时间:2020-06-21 19:49:58

标签: python pandas performance

我有两个基于位置的熊猫数据框。

df1:其中的一列包含完整的地址,例如“英国伦敦伊灵埃文路”。地址格式不同。

df1.address[0] --> "Avon Road, Ealing, London, UK"

df2:那里只有英国城市,例如“伦敦”。

df2.city[5] --> "London"

鉴于完整的地址,我想找到第一个数据框的城市。这样将在我的第一个数据帧上进行。

df1.city[0] --> "London"

方法1:对于df2中的每个城市,检查df1中是否有这些城市,并将df1和df2的索引存储在列表中。

我不确定如何执行此操作,但是我假设我将使用此代码来找出是否存在部分字符串匹配项并找到索引的位置:

df1['address'].str.contains("London",na=False).index.values  

方法2:对于每个df1地址,检查是否有任何单词与df2中的城市匹配并将df2的值存储在列表中。

我认为这种方法更直观,但是计算上会更昂贵吗?假设df1有数百万个地址。

很抱歉,这是一个愚蠢或简单的问题!指向最有效代码的任何方向都将有所帮助:)

1 个答案:

答案 0 :(得分:1)

方法2确实是一个好的开始。但是,使用Python字典而不是列表应该更快。 这是示例代码:

cityIndex = set(df2.city)

addressLocations = []
for address in df1.address:
    location = None
    # Warning: ignore characters like '-' in the cities
    for word in re.findall(r'[a-zA-Z0-9]+', address):
        if word in cityIndex:
            location = word
            break
    addressLocations.append(location)
df1['city'] = addressLocations