我正在尝试找到最佳方法来将集合中的单词(hashset,list)与文档(如文章,博客)进行比较,以查找匹配的单词。
例如 - 我有以下单词集合
Old
Man
Lazy
Dog
如果我需要搜索的文件是
A dog is man's best friend
输出应为
dog, man
文档可能包含超过1000个单词。
最简单的方法将是以下
HasSet {Collection} = {Old, Man, Lazy, Dog}
for each {word} in the {document}
if the Collection contains {word}
return {word}
else
continue
是否有更有效的方法来执行文本搜索?对于这种方法,后缀树不是一种矫枉过正吗?我遇到的挑战是输入word文档长度可能是1000-5000字,集合是9000字的列表