我是否知道如何评估语义搜索(本体搜索)并对检索到的文档进行排名?
因为语义搜索可以检索文档的类似含义,即使文档没有查询的关键字也是如此。这意味着我无法使用TFIDF来比较查询和文档并进行排名。因为精确度和召回率不准确。
如何评估基于本体的语义搜索并进行文档排名?
答案 0 :(得分:0)
您应该使用用作黄金标准的数据集。
相对于a而非查询评估相关性。例如,信息需求可能是:
有关喝红葡萄酒是否比白葡萄酒更有效降低心脏病发作风险的信息。 这可能会被翻译成如下查询: 葡萄酒和红色和白色和心脏和攻击和有效 如果文档解决了所声明的信息需求,则文档是相关的,而不是因为它恰好包含查询中的所有单词。
以下是最标准的测试集和评估系列列表。
克兰菲尔德系列。这是开创性的测试集合,允许对信息检索有效性进行精确的量化测量,但现在对于除了最基本的试验性实验之外的任何东西都太小了。从20世纪50年代末开始收集在英国,它包含1398篇空气动力学期刊论文摘要,225个查询集,以及所有(查询,文档)对的详尽相关性判断。 文本检索会议(TREC)。自1992年以来,美国国家标准与技术研究院(NIST)开展了大型IR试验台评估系列。在此框架内,已有许多不同测试集合的轨道,但最着名的测试集合是使用的在1992年至1999年的前8次TREC评估期间,TREC Ad Hoc轨道总共包括6张CD,其中包含189万份文件(主要是但不限于新闻专线文章)和450份信息需求的相关性判断,这些是调用主题并在详细文本段落中指定。在该数据的不同子集上定义各个测试集合。早期的TREC每个都包含50个信息需求,通过不同但重叠的文档集进行评估。 TREC 6-8提供了超过528,000条新闻专线和外国广播信息服务文章的150种信息需求。这可能是在未来工作中使用的最佳子集合,因为它是最大的并且主题更加一致。由于测试文档集合如此之大,因此没有详尽的相关性判断。相反,NIST评估员的相关性判断仅适用于在TREC评估中输入的某些系统返回的最高$ k $之间的文档,其中开发了信息需求。 近年来,NIST已经对更大的文档集进行了评估,包括2500万页的GOV2网页集。从一开始,NIST测试文档集合比先前研究人员可用的任何内容都要大几个数量级,而GOV2现在是最容易用于研究目的的最大Web集合。尽管如此,GOV2的大小仍然比大型网络搜索公司索引的文档集合的当前大小小2个数量级。
IR Systems的NII测试集(NTCIR)。 NTCIR项目已经为TREC馆藏建立了各种类似规模的测试馆藏,重点是东亚语言和跨语言信息检索,其中查询以包含一种或多种其他语言的文档的文档集合的一种语言进行。请参阅:http://research.nii.ac.jp/ntcir/data/data-en.html 跨语言评估论坛(CLEF)。本评估系列主要关注欧洲语言和跨语言信息检索。请参阅:http://www.clef-campaign.org/ 和路透社-RCV1。对于文本分类,最常用的测试集合是路透社-21578收集的21578条新闻专线文章;见第13章,第13.6页。最近,路透社发布了更大的路透社语料库第1卷(RCV1),包括806,791份文件;见第4章,第4.2页。其规模和丰富的注释使其成为未来研究的更好基础。 20个新闻组。这是另一个广泛使用的文本分类集合,由Ken Lang收集。它包含来自20个Usenet新闻组的1000篇文章(新闻组名称被视为类别)。删除重复的文章后,如通常使用的那样,它包含18941篇文章。