制作维基百科的树链接

时间:2017-03-23 17:40:15

标签: graph wikipedia wikipedia-api

我正在尝试使用Wikipedia API来获取所有页面上的所有链接。目前我正在使用

https://en.wikipedia.org/w/api.php?format=json&action=query&generator=alllinks&prop=links&pllimit=max&plnamespace=0

但这似乎不是从第一篇文章开始到最后一篇文章结束。如何生成所有页面及其所有链接?

2 个答案:

答案 0 :(得分:2)

英语维基百科有大约10.5亿个内部链接。考虑到list=alllinks模块每个请求限制为500个链接,从API获取所有链接是不现实的。

相反,您可以下载Wikipedia's database dumps并使用它们。具体来说,您需要pagelinks转储,其中包含有关链接本身的信息,并且很可能还有page转储,用于将页面ID映射到页面标题。

答案 1 :(得分:0)

我知道这是一个老问题,但是如果其他任何人都在搜索并找到了这个问题,我强烈建议您查看Wikicrush,以提取所有Wikipedia的链接图。它产生了一个相对紧凑的表示形式,可用于非常快速地遍历链接。