Question

我有一个拥有大约1000万个出版物标题的mysql数据库。现在，当我想添加一个新标题时，标题可能已经存在，但写的略有不同。一个例子：

Overview on +-Trees....
Overview on B-Tree .....
Overview on $({\rm B}^+)$-Trees....

所有3个标题都不同，如果我试图完全匹配它们，但它们引用同一个出版物。

现在我可以使用像levenshtein这样的东西来计算相似度。但是，使用1000万个标题，计算每个距离可能需要很长时间。

现在我在想的是，是否存在某种可以在所有字符串上应用的度量标准作为预先计算。例如，计算单词的数量，以便我只收集具有相似单词长度的标题。目标是将levenshtein比较的数量从1000万减少到100.000或更少。

Answer 1

您可以在mysql中使用BINARY搜索exaction字符串。它会给出结果是否完全匹配

 select * from table where BINARY column_name = "matching_value";