(.Net)找到句子和字典之间单词联合的最佳数据结构

时间:2013-05-24 02:34:05

标签: algorithm data-structures full-text-search lookup string-search

我正在尝试找到最佳方法来将集合中的单词(hashset,list)与文档(如文章,博客)进行比较,以查找匹配的单词。

例如 - 我有以下单词集合

Old
Man
Lazy
Dog

如果我需要搜索的文件是

A dog is man's best friend

输出应为

dog, man

文档可能包含超过1000个单词。

最简单的方法将是以下

HasSet {Collection} = {Old, Man, Lazy, Dog}

for each {word} in the {document}
    if the Collection contains {word}
       return {word}
    else
       continue

是否有更有效的方法来执行文本搜索?对于这种方法,后缀树不是一种矫枉过正吗?我遇到的挑战是输入word文档长度可能是1000-5000字,集合是9000字的列表

0 个答案:

没有答案