我正在查询每个维基百科页面的所有修订历史记录。我从链接https://dumps.wikimedia.org/enwiktionary/20170320/下载了主名称空间中的页面标题列表的wiki转储 但是,似乎我下载的转储中有超过12,000,000个标题,这比维基百科报道的更多(https://en.wikipedia.org/wiki/Wikipedia:Size_comparisons)。谁能告诉我发生了什么事?我使用正确的转储吗?
我问的原因是,如果我查询提供文章标题的历史记录,看起来需要几百天才能获得所有修订历史记录。因此,如果有更好的方法来提取修订历史记录,那么它也会非常有用。
答案 0 :(得分:2)
首先,这是Wiktionary中的页面转储。维基百科的id为enwiki
,但即使使用正确的转储,计数匹配也需要付出一些努力: