(查询,文档,相关性)免费数据集,用于构建信息检索系统

时间:2016-08-23 09:39:49

标签: machine-learning dataset information-retrieval supervised-learning

我有兴趣找到像“英国相关判断文件列表”这样的数据集: http://trec.nist.gov/data/qrels_eng

此数据集包含标记的查询和文档对。 但是,它取决于非自由语料库,称为“数据 - 英语文档”: http://trec.nist.gov/data/docs_eng.html

您知道任何与此类似的免费数据集吗?

附注:该数据集将用于研究项目,用于构建基于神经网络的信息检索系统。

1 个答案:

答案 0 :(得分:8)

您在问题中混淆了几个TREC集合。 ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是单独的文档集。也就是说,每个文档集都有自己独特的主题(查询)和相关性判断,这些不是文档集分发的一部分。

有许多不同的TREC文本检索测试集。 TREC数据页面(trec.nist.gov/data.html)列出了可用的集合,这些页面由TREC轨道组织创建。它们以这种方式组织,因为集合通常旨在支持检索问题该赛道旨在支持。

通常,查询和相关性判断可以直接从TREC站点下载。通常必须购买文档集:文档集由原始来源版权所有,并且必须获得许可,或者与收集/分发文档集相关的其他重大费用。如果您参加TREC,您可以免费获得一些旧的TREC文档集(尽管今年不再是一个选项)。一些文档集是免费的,但大多数仍需要签署数据使用协议。 Genomics轨道有一个临时搜索任务,其文档集是免费的,受数据使用协议的约束。请参阅http://trec.nist.gov/data/genomics.html

格拉斯哥大学在http://ir.dcs.gla.ac.uk/resources/test_collections/维护一个页面,指向其他可用的测试集合,其中一些是免费的。其中大部分是TREC之前(1992年之前)的系列,按照今天的标准来看,这些系列非常小。 (如你所知,“Tiny”可能会发现论文评论者对仅在小型集合上展示的结果持高度怀疑态度。)

Ellen Voorhees, TREC项目经理, NIST