我在各种文档上有20,000个公司地址,这些文档的格式都不同。例如:
公司A 12345街 US
CompanyA,Inc box2,12345 street 华盛顿州,美国
公司B公司 123 happy street UK
B公司 123,快乐街,伦敦,S1 1AA
我希望能够将每家公司的记录合并(即将上述内容分为两类,每个公司一个)。
我不知道如何解决这个问题。我假设任何聚类本质上都是概率性的,并且可能更容易匹配,但是需要手动审查不太可能/更不确定的匹配。
有人能说出任何适合此类任务的技术吗?
非常感谢!