我正在尝试评估信息检索方法。因此,我需要适合Cranfield experiment的数据:
不幸的是我没有找到任何可以免费获得的东西......
答案 0 :(得分:5)
<强>数据集:强>
克兰菲尔德发布了大约3000篇摘要和一系列具有相关性判断的查询。但是,使用此集合是不可取的,因为它非常小。
对于中等大小的集合,您可以使用5个卷中的TREC临时搜索数据。通常使用第4卷和第5卷。这些文档(大约五十万)对应于TREC Robust查询集(TREC 6/7/8和Robust轨道),总共包含250个查询。
INEX即席搜索任务数据由一组XML文档(一组27G的维基百科转储)组成。相关性判断包括整篇文章中标注的相关段落。任务是检索这些段落。
对于非英语文档,您可以使用CLEF数据(欧洲语言)或FIRE数据(南亚语言)。
对于较大的集合,您可以使用ClueWeb(TREC网络搜索轨道)。大小为25Tb。
或者,您也可以使用特定领域的测试集合,例如Tweets语料库(TREC微博搜索轨道),法律文件(TREC法律轨道),专利集合(CLEF-IP),医疗馆藏(Pub-Med)等。
<强>状况:强>
这些系列中的大部分都是免费提供的。您只需要注册该曲目(如果它是正在进行的曲目),他们将为您提供数据。一些过去的曲目使得数据在轨道网页中可用。 TREC ad hoc和ClueWeb数据不是免费提供的。然而,最近的TREC轨迹使数据免费提供。 INEX,FIRE和CLEF的各种数据集都是免费提供的。只需向(过去)组织者发送电子邮件,以防他们删除了指向数据的链接。