获取链接到给定维基百科页面的所有页面ID

时间:2013-10-29 12:07:16

标签: api web web-crawler wikipedia wikimedia

我正在尝试使用wikimedia public apis访问英语维基百科数据库。

我想要一种方法来获取链接到给定页面的所有页面ID。

如果我喜欢这样: http://en.wikipedia.org/w/api.php?action=query&titles=computer&format=xml

我只能获取“计算机”页面的页面ID。

我知道我可以解析该页面内的'href'标签并进行n次查询,但效率不高。

我可以通过api单独实现这一目标吗?

1 个答案:

答案 0 :(得分:1)

看起来你正在寻找the backlinks module

有了这个,你可以这样做:

http://en.wikipedia.org/w/api.php?action=query&bltitle=computer&list=backlinks&format=xml

此外,API使用分页,因此您很可能需要在查询中添加&bllimit=max,然后使follow-up requests获取其余页面。