索引服务中的“噪音词”

时间:2013-12-10 11:42:48

标签: indexing-service noise-words

任何人都可以告诉我,索引服务中的噪音词究竟是什么意思?我正在研究Windows服务器索引服务并遇到很多问题。 Some questions on it: Does indexing services not search for noise words? What is the location and name of noise word file on windows server?谢谢。

1 个答案:

答案 0 :(得分:0)

它们与停用词相同:

https://en.wikipedia.org/wiki/Stop-words

  

在计算中,停用词是在处理自然语言数据(文本)之前或之后被过滤掉的词。没有一个明确的停用词列表,所有工具都使用,并且不总是使用这样的过滤器。有些工具专门避免删除它们以支持短语搜索。

另见:

http://msdn.microsoft.com/en-us/library/ms693206%28v=vs.85%29.aspx

  

噪音词在词组查询中充当占位符。包含文本“wag the dog”的文档存储在索引中,在出现1处为“wag”,在出现3处为“dog”。短语查询“wag dog”不匹配,但短语查询“wag a dog “是的,因为出现信息匹配