从课程"文本检索和搜索引擎"在Coursera我学习了一些信息检索系统中的反馈算法,比如Rocchio。但我仍然无法理解反馈是如何在实际中使用的。
为什么所有反馈算法都会更新查询向量而不是直接更新文档排名?
文档是否点击了邮件列表中存储的反馈?
由于
答案 0 :(得分:0)
但我仍然无法理解实际使用反馈的方式。
由于您已经研究过 Rocchio反馈,我将尝试参考这种特定方法进行解释,尽管这也适用于任何其他反馈方法,例如: relevance modeling
Rocchio算法首先修改当前查询表示(通过添加新术语并重新加权初始查询术语)。然后它执行第二轮检索并获得新的排名列表。
为什么所有反馈算法都会更新查询向量而不是直接更新文档排名?
这是因为如果初始查询表示不够好,则初始排名列表不会有高召回率。这意味着即使对结果进行重新排序也没有多大用处(当然,除非您正在进行高精度导向的任务,而您所关心的只是P @ 10)。查询中的其他术语通常会对在前1000中检索更多相关文档产生重大影响。
文档是否点击存储在过帐列表中的反馈?
不,发布列表可以另外包含特定术语(列表的头部)的每个文档统计数据,例如,术语位置等。是否单击文档的信息是全局信息,与特定术语无关。 此外,用户点击不用于修改当前查询的排名。相反,它们可用于构建感兴趣的用户配置文件。