information retrieval
系统最着名的衡量标准之一是计算其precision
和recall
。对于这两种情况,我们需要计算总相关文档的数量,并将其与系统返回的文档进行比较。我的问题是,我们如何才能在以下场景中找到super set
相关文档:
考虑到我们有一个学术搜索引擎,其工作是接受学术论文的全名并基于一些算法,它返回相关论文的列表。在这里,为了判断系统是否具有良好的准确性,我们希望计算其精度和召回率。但是我们不知道如何制作一套相关的论文 - 搜索引擎应该返回它们,关于不同的用户的查询 - 并相应地,计算精度和召回。
答案 0 :(得分:0)
系统设计的大多数相关文档集涉及向用户(真人)展示文档。
非人类评估:
你可能想出一个"假的"在您的特定实例中进行评估我希望论文中排名最高的论文"相关性判断的变化和检索有效性的测量" [1]将是那篇论文本身。因此,您可以获取数据并创建自动评估。它不会告诉你你的系统是否真的找到了新的东西(你关心的东西),但它会告诉你你的系统是否可怕。
e.g。如果你在麦当劳,你问过最近的麦当劳的地图系统,而且它找不到你所在的那个,你就会知道这是某种形式的麦当劳。系统故障。
进行真正的评估:
您提出了一组设置查询,并为每个查询判断系统的最高 K 结果。实际上,您无法查看每个查询的所有数百万篇论文 - 因此您可以通过您当前所了解的召回集来近似调用。这就是为什么在您汇集的系统中存在多样性非常重要的原因。相关性很棘手;人们对哪些文档与查询相关的人不同意。
在您的情况下:人们会不同意哪些论文与另一篇论文相关。但这基本上没问题,因为他们大多会同意明显的一致。
如果您正在比较系统,那么分歧就可以了:
如果您要比较不同的信息检索系统,这种模式才有意义。它并不能帮助您了解单个系统的优异程度,但它可以帮助您确定一个系统是否比另一个系统更可靠[1]。
[1] Voorhees,Ellen M."相关性判断的变化和检索有效性的测量。"信息处理&管理36.5(2000):697-716。