任何人都可以告诉我,索引服务中的噪音词究竟是什么意思?我正在研究Windows服务器索引服务并遇到很多问题。 Some questions on it: Does indexing services not search for noise words? What is the location and name of noise word file on windows server?
谢谢。
答案 0 :(得分:0)
它们与停用词相同:
https://en.wikipedia.org/wiki/Stop-words
在计算中,停用词是在处理自然语言数据(文本)之前或之后被过滤掉的词。没有一个明确的停用词列表,所有工具都使用,并且不总是使用这样的过滤器。有些工具专门避免删除它们以支持短语搜索。
另见:
http://msdn.microsoft.com/en-us/library/ms693206%28v=vs.85%29.aspx
噪音词在词组查询中充当占位符。包含文本“wag the dog”的文档存储在索引中,在出现1处为“wag”,在出现3处为“dog”。短语查询“wag dog”不匹配,但短语查询“wag a dog “是的,因为出现信息匹配