我正在尝试从维基百科页面中提取每个文本内容,包括使用API沙箱的表格Ballon_d'Or上的维基百科页面。
我尝试了给定的查询:
https://en.wikipedia.org/w/api.php?action=query&format=json&prop=extracts&titles=Ballon_d%27Or&explaintext=1&exsectionformat=wiki
但是它只提供了文本内容而没有来自wiki表的内容,如下所示:
有没有办法以文本格式获取表格内容以及已经获得的文字信息?
或者,我可以使用漂亮的Soup尝试网络抓取技术,但我想首先寻找查询方法。
答案 0 :(得分:0)
https://en.wikipedia.org/w/api.php?action=parse&page=Ballon_d'Or&prop=text
使用§ion=2
,您将访问第二部分Winners。
这可能会在以后帮助您:Regular expression to remove HTML tags