克兰菲尔德实验的公共数据集

时间:2014-07-04 15:01:35

标签: information-retrieval

我正在尝试评估信息检索方法。因此,我需要适合Cranfield experiment的数据:

  1. 文件(D)
  2. 查询(Q)
  3. 相关性(Q,D)
  4. 不幸的是我没有找到任何可以免费获得的东西......

1 个答案:

答案 0 :(得分:5)

<强>数据集:

克兰菲尔德发布了大约3000篇摘要和一系列具有相关性判断的查询。但是,使用此集合是不可取的,因为它非常小。

对于中等大小的集合,您可以使用5个卷中的TREC临时搜索数据。通常使用第4卷和第5卷。这些文档(大约五十万)对应于TREC Robust查询集(TREC 6/7/8和Robust轨道),总共包含250个查询。

INEX即席搜索任务数据由一组XML文档(一组27G的维基百科转储)组成。相关性判断包括整篇文章中标注的相关段落。任务是检索这些段落。

对于非英语文档,您可以使用CLEF数据(欧洲语言)或FIRE数据(南亚语言)。

对于较大的集合,您可以使用ClueWeb(TREC网络搜索轨道)。大小为25Tb。

或者,您也可以使用特定领域的测试集合,例如Tweets语料库(TREC微博搜索轨道),法律文件(TREC法律轨道),专利集合(CLEF-IP),医疗馆藏(Pub-Med)等。

<强>状况:

这些系列中的大部分都是免费提供的。您只需要注册该曲目(如果它是正在进行的曲目),他们将为您提供数据。一些过去的曲目使得数据在轨道网页中可用。 TREC ad hoc和ClueWeb数据不是免费提供的。然而,最近的TREC轨迹使数据免费提供。 INEX,FIRE和CLEF的各种数据集都是免费提供的。只需向(过去)组织者发送电子邮件,以防他们删除了指向数据的链接。