mediawiki-api - 页面上的链接&在这些页面上获取字段

时间:2014-06-02 22:13:12

标签: mediawiki wikipedia wikipedia-api mediawiki-api

如果我有维基媒体类别,例如“类别:Google_Art_Project_works_by_Vincent_van_Gogh”,是否有API可以检索链接到该网页的网址列表?

我试过这个,但它没有返回任何链接:https://en.wikipedia.org/w/api.php?action=query&titles=Category:Google_Art_Project_works_by_Vincent_van_Gogh&prop=links

(如果没有,我会解析html并以这种方式获取它们。)

一旦我链接了所有网址,是否有用于检索网页上某些信息的API? (摘要/艺术家,标题,日期,尺寸,当前位置,许可)

我试过这个,但它似乎没有办法返回这些信息:https://en.wikipedia.org/w/api.php?action=query&titles=File:Irises-Vincent_van_Gogh.jpg&prop=imageinfo&iiprop=url

1 个答案:

答案 0 :(得分:1)

  

是否有API来检索链接到该页面的网址列表?

我猜您正在寻找将列出所选类别中的网页的Categorymembers API

  

我试过这个,但它没有返回任何链接:https://en.wikipedia.org/w/api.php?action=query&titles=Category:Google_Art_Project_works_by_Vincent_van_Gogh&prop=links

首先,请注意this is a Wikimedia Commons Category,查询en.wikipedia.org确实会向您返回missing页面。但是,即使您query the right project,您也会注意到the category description确实不包含任何链接。

  

我链接了所有网址后,是否有用于检索网页上某些信息的API?

您可以将categorymembers查询用作generator,然后从每个页面指定您想要的常用properties。但是,您似乎感兴趣的元数据无法通过API获得,您需要从每个图像描述文本中解析它。

尝试https://commons.wikimedia.org/w/api.php?action=query&generator=categorymembers&gcmtitle=Category%3aGoogle_Art_Project_works_by_Vincent_van_Gogh&prop=links|imageinfo|revisions&iiprop=timestamp|user|url|size|mime&rvprop=ids|content&rvgeneratexml