查询术语消除

时间:2011-07-30 14:59:34

标签: theory information-retrieval

在布尔检索模型中,查询由使用不同运算符组合在一起的术语组成。连接是乍一看最明显的选择,但是当查询长度增长时,糟糕的事情发生了。使用连接时召回显着下降,使用析取时精度下降(例如,stanford OR university)。

至于现在我们使用的是我们的搜索系统(和布尔检索模型)。如果用户输入一些非常罕见的单词或长单词序列,我们就会遇到问题。例如,如果用户输入toyota corolla 4wd automatic 1995,我们可能没有。{但是如果我们从查询中删除至少一个单词,我们就会有这样的文档。据我所知,在矢量空间模型中,这个问题自动解决了。我们没有过滤关于术语存在事实的文档,我们使用术语存在排名文档。

所以我对布尔检索模型中的术语和布尔检索模型中罕见术语消除方法的更高级方法感兴趣。

1 个答案:

答案 0 :(得分:0)

在这里定义排名功能似乎是天空的极限。你可以定义一个向量,其中wi是:0如果第i个搜索项没有出现在文件中,1如果它出现;搜索词i出现在文件中的次数;然后,基于例如对页面进行排名。曼哈顿距离,欧几里德距离等,并按降序排序,可能剔除距离低于指定匹配容差的结果。

如果您想处理更复杂的查询,可以将查询放入CNF - 例如(term1或term2或... termn)AND(item1或item2或... itemk)AND ...然后相应地重新定义权重wi。您可以在每个结果中列出文件中未能匹配的条款......这样用户至少可以知道它的匹配程度。

我想我真正想说的是,要真正得到适合您的答案,您必须准确定义您愿意接受的有效搜索结果。根据严格的解释,如果缺少任何条款,则查找A1和A2以及...... Am 的查询将失败...