匹配模糊字符串

时间:2012-01-19 16:25:07

标签: database string postgresql matching fuzzy

我需要在PostgreSQL中将两个表合并在公共变量“公司名称”上。不幸的是,许多公司名称并不完全匹配(即一个表中的MICROSOFT,另一个表中的MICROSFT)。我尝试从两个列中删除常用词,例如“corporation”或“inc”或“ltd”,以便尝试在两个表中标准化名称,但我无法考虑其他策略。有任何想法吗?

感谢。

此外,如果有必要,我可以在R中执行此操作。

1 个答案:

答案 0 :(得分:7)

你考虑过fuzzystrmatch模块吗?您可以使用soundexdifferencelevenshteinmetaphonedmetaphone或其组合。

fuzzystrmatch documentation

SELECT something
FROM somewhere
WHERE levenshtein(item1, item2) < Carefully_Selected_Threshold

例如,从 MICROSOFT MICROSFT 的levenshtein距离是一(1)。

levenshtein(dmetaphone('MICROSOFT'), dmetaphone('MICROSFT')

以上返回零(0)。结合levenshtein和dmetaphone可以帮助你匹配许多拼写错误。