在分析搜索引擎的文档时,通常不会将所谓的停用词编入索引。停用词是常用词,例如a
,the
和this
,它们经常出现在语言中。我们的想法是,如果对停用词进行索引,它们会在索引中占用太多空间,并且几乎不会增加搜索结果的质量。
我想知道是否总是如此。
在现代搜索引擎中,索引停用词是否会使索引大小爆炸?或者只是略微增加。
此外,删除停用词会如何影响短语搜索?寻找“披头士”和“披头士乐队”似乎是两件截然不同的事情。
我正在使用elasticsearch构建应用程序,但此问题同样适用于Solr,直接lucene或任何其他变体。
答案 0 :(得分:4)
答案 1 :(得分:0)
我认为所有搜索引擎都有不同的处理方式。 您可以在http://searchenginewatch.com
了解这些内容但如果你只是一个正在构建一个(小)应用程序的人,我认为你不应该专注于这些小细节,只是忽略这些单词,而是专注于更相关的单词。