n个字符串之间的字符串相似度

时间:2017-03-11 15:25:47

标签: mysql string

我有一个拥有大约1000万个出版物标题的mysql数据库。 现在,当我想添加一个新标题时,标题可能已经存在,但写的略有不同。 一个例子:

Overview on +-Trees....
Overview on B-Tree .....
Overview on $({\rm B}^+)$-Trees....

所有3个标题都不同,如果我试图完全匹配它们,但它们引用同一个出版物。

现在我可以使用像levenshtein这样的东西来计算相似度。 但是,使用1000万个标题,计算每个距离可能需要很长时间。

现在我在想的是,是否存在某种可以在所有字符串上应用的度量标准作为预先计算。 例如,计算单词的数量,以便我只收集具有相似单词长度的标题。目标是将levenshtein比较的数量从1000万减少到100.000或更少。

1 个答案:

答案 0 :(得分:0)

您可以在mysql中使用BINARY搜索exaction字符串。它会给出结果是否完全匹配

 select * from table where BINARY column_name = "matching_value";