我有一个拥有大约1000万个出版物标题的mysql数据库。 现在,当我想添加一个新标题时,标题可能已经存在,但写的略有不同。 一个例子:
Overview on +-Trees....
Overview on B-Tree .....
Overview on $({\rm B}^+)$-Trees....
所有3个标题都不同,如果我试图完全匹配它们,但它们引用同一个出版物。
现在我可以使用像levenshtein这样的东西来计算相似度。 但是,使用1000万个标题,计算每个距离可能需要很长时间。
现在我在想的是,是否存在某种可以在所有字符串上应用的度量标准作为预先计算。 例如,计算单词的数量,以便我只收集具有相似单词长度的标题。目标是将levenshtein比较的数量从1000万减少到100.000或更少。
答案 0 :(得分:0)
您可以在mysql中使用BINARY搜索exaction字符串。它会给出结果是否完全匹配
select * from table where BINARY column_name = "matching_value";