我正在尝试使用Wikipedia API来获取所有页面上的所有链接。目前我正在使用
但这似乎不是从第一篇文章开始到最后一篇文章结束。如何生成所有页面及其所有链接?
答案 0 :(得分:2)
英语维基百科有大约10.5亿个内部链接。考虑到list=alllinks
模块每个请求限制为500个链接,从API获取所有链接是不现实的。
相反,您可以下载Wikipedia's database dumps并使用它们。具体来说,您需要pagelinks
转储,其中包含有关链接本身的信息,并且很可能还有page
转储,用于将页面ID映射到页面标题。
答案 1 :(得分:0)
我知道这是一个老问题,但是如果其他任何人都在搜索并找到了这个问题,我强烈建议您查看Wikicrush,以提取所有Wikipedia的链接图。它产生了一个相对紧凑的表示形式,可用于非常快速地遍历链接。