如何有效地找到一组术语和一系列句子之间的所有模糊匹配?

时间:2015-09-08 17:12:07

标签: python full-text-search levenshtein-distance fuzzy-comparison

我有一个句子列表(例如“这是一个例句”)和术语表(例如“句子”,“例句”),需要找到与句子匹配的所有术语。一些Levenshtein比率。

我怎么能够足够快地完成它?拆分句子,使用FTS查找按术语出现的单词并按比例过滤术语,但速度相当慢。现在我正在使用sphinxsearch + python-Levelshtein,有更好的工具吗?

反向搜索:句子中的FTS匹配条件会更快吗?

1 个答案:

答案 0 :(得分:0)

如果速度是一个真正的问题,并且如果您的术语词汇表不会经常更新,那么与您想要执行的搜索次数相比,您可以查看类似Levenshtein Automaton的内容。我不知道有任何支持它的python库,但如果你真的需要它,你可以自己实现它。要找到所有可能的路径,需要进行一些动态编程。

如果您只是需要完成它,只需循环遍历词汇表并针对字符串中的每个单词测试每个词。这应该给你一个多项式时间的答案。如果您使用的是多核处理器,则可以通过in parallel进行一些加速。