使用levenshtein距离生成摘录

时间:2009-07-17 11:47:03

标签: c search-engine

好的,我正在建立一个搜索引擎。并且搜索模块能够提取相关单词。现在我有一个单词列表及其在原始源文本中的偏移量。使用levenshtein距离计算查询字符串与源文本部分之间的差异是一个坏主意(从给定单词的偏移量开始,直到查询字符串的长度)。问我以为这会帮助我更快地生成摘录。

它不需要接近搜索等,只需要正常的“任何”和“所有”模式。顺便说一句,结果已经排序,所以我现在只看一个摘录代。感谢。

1 个答案:

答案 0 :(得分:1)

构建从文本到包含的单词(及其计数)的一对多映射。然后,这个“词袋”矢量可以用于许多不同的技术。