我在哪里可以获得维基百科XML语料库

时间:2011-04-08 08:10:36

标签: xml search-engine information-retrieval

我不知道这是否可以在这里被问到,但我看起来很难,并且已经一次又一次地到达了deadend。我正在开展信息检索研究项目。我编写了我的搜索引擎但无法测试它,因为我需要这个维基百科的xml语料库。我发现http://www-connex.lip6.fr/~denoyer/wikipediaXML/但结果却没用。如果有人知道给我这个语料库的方法,请告诉我

1 个答案:

答案 0 :(得分:3)

您提供的页面似乎是在展示2007 INEX研讨会中使用的Wikipedia XML语料库。我发现this site保存了在2009-2010 ad hoc(我认为也是聚类)跟踪的维基百科数据集。我想你也可以使用它。

以防您可以使用官方维基词典XML转储:English Wikipedia Dumps。 更多信息和其他语言:Wikipedia Database Download