我不知道这是否可以在这里被问到,但我看起来很难,并且已经一次又一次地到达了deadend。我正在开展信息检索研究项目。我编写了我的搜索引擎但无法测试它,因为我需要这个维基百科的xml语料库。我发现http://www-connex.lip6.fr/~denoyer/wikipediaXML/但结果却没用。如果有人知道给我这个语料库的方法,请告诉我
答案 0 :(得分:3)
您提供的页面似乎是在展示2007 INEX研讨会中使用的Wikipedia XML语料库。我发现this site保存了在2009-2010 ad hoc(我认为也是聚类)跟踪的维基百科数据集。我想你也可以使用它。
以防您可以使用官方维基词典XML转储:English Wikipedia Dumps。 更多信息和其他语言:Wikipedia Database Download