如何通过API从维基百科页面中提取WikiTables?

时间:2017-03-18 11:39:40

标签: wikipedia wikipedia-api

我正在尝试从维基百科页面中提取每个文本内容,包括使用API​​沙箱的表格Ballon_d'Or上的维基百科页面。

我尝试了给定的查询:

https://en.wikipedia.org/w/api.php?action=query&format=json&prop=extracts&titles=Ballon_d%27Or&explaintext=1&exsectionformat=wiki

但是它只提供了文本内容而没有来自wiki表的内容,如下所示:

enter image description here

有没有办法以文本格式获取表格内容以及已经获得的文字信息?

或者,我可以使用漂亮的Soup尝试网络抓取技术,但我想首先寻找查询方法。

1 个答案:

答案 0 :(得分:0)

使用action = parse代替query

https://en.wikipedia.org/w/api.php?action=parse&page=Ballon_d'Or&prop=text

使用&section=2,您将访问第二部分Winners

这可能会在以后帮助您:Regular expression to remove HTML tags