Question

我正在尝试匹配2个单独数据集中的字段。它们都是地址字段。一个数据集可能包含类似＆＃34; 532 Sheffield Dr＆＃34;而另一个可能只包含＆＃34;谢菲尔德博士＆＃34;。另一个例子是＆＃34; US21 Ramp和Hays RD＆＃34;与＆＃34; US 21＆＃34;，＆＃34; N 25th St和Danville RD＆＃34;与＆＃34; 25th St＆＃34;等等。基本上，即使第一个数据集中的数据可能包含一些额外的文本/数字，第二个数据集中列中的所有文本/数字也应与第一个数据集的数据匹配。我一直在尝试使用RegEx，但是还没有能够为它找出合适的代码。我该怎么做？

Answer 1

根据您的示例和我所理解的最简单的方法是：

s1 = ["532 Sheffield Dr",  "US21 Ramp and Hays RD",  "N 25th St and Danville RD"]
s2 = ["Sheffield Dr",  "US 21", "25th St"]

for item2 in s2:
    for item1 in s1:
        if item2 in item1 or item2.replace(' ', '') in item1:
            print('%s in %s' % (item2, item1))

非结构化文本/数字合并

1 个答案: