是否有任何算法或标准来验证不同格式的客户名称。
我的意思是,
可能是同一个人,应该通过验证。
由于
答案 0 :(得分:2)
Figure out if a business name is very similar to another one - Python接受的答案肯定会帮助你,因为我自己已经采用了一种非常类似的方法来规范名称。
请注意,单个独立指标不够。集合方法必须实现考虑字符N Gram匹配,编辑距离等,这最终返回匹配单词的强度。设计一个用于计算匹配关键字强度的公式,一旦您的名称列表用完,只需重新运行算法,以获得强度低于您设置的特定阈值的名称/单词。这使得这些名称能够与其他匹配/强度值更强的名称集群产生共鸣。
此外,您还需要注意精确/召回权衡。通过上述方法,我已经看到精度太高但回忆不是很好。