与维基百科的API交互:抓取页面上的表格内容

时间:2014-12-23 10:51:56

标签: java mysql wikipedia wikipedia-api mediawiki-api

E.g。

  1. 这是一个链接http://en.wikipedia.org/wiki/Brad_Pitt_filmography 其中以表格形式列出了布拉德皮特的所有电影。 我想抢表内容。
  2. 查询 - > http://en.wikipedia.org/w/api.php?action=query&titles=Brad_Pitt_filmography&

    查询中还会包含哪些其他参数?

    1. 如何使用Java
    2. 将其存储在MySQL数据库中

1 个答案:

答案 0 :(得分:2)

使用" action = parse":

http://en.wikipedia.org/w/api.php?action=parse&format=xml&prop=text&page=Brad_Pitt_filmography&section=1&contentformat=text/plain

你可以改变" prop" to text(html)或wikitext。欲了解更多信息,请检查: http://en.wikipedia.org/w/api.php?action=help&modules=parse