如何使用Wikipedia api获取表信息和页面摘要?

时间:2020-04-13 13:27:08

标签: wikipedia-api

我想使用DuckDuckGo之类的MediaWiki API获得有关Wikipedia页面的最少信息。例如,史蒂夫·卡雷尔(Steve Carell):https://duckduckgo.com/?q=steve+carell&t=hp&ia=news&iax=about

如何使用HTML格式的Wikipedia网址(例如https://en.wikipedia.org/wiki/Steve_Carell)获取此信息?

1 个答案:

答案 0 :(得分:2)

您可以为此使用MediaWiki API。有一个扩展名TextExtracts,正是它的扩展名(它已安装在Wikipedia上)。

在您的情况下,例如: https://en.wikipedia.org/w/api.php?action=query&prop=extracts&exsentences=1&titles=Steve%20Carell

将返回类似:

<p class=\"mw-empty-elt\">\n</p>\n\n<p class=\"mw-empty-elt\">\n \n</p>\n<p><b>Steven John Carell</b> (<span></span>; born August 16, 1962) is an American actor, comedian, producer, writer and director.</p>

您还可以自定义API返回的句子(或字符)数量,请查阅API documentation

还有一种检索简短描述的方法,该描述保存在Wikidata中(在Wikipedia的移动视图中可见)。该调用为: https://en.wikipedia.org/w/api.php?action=query&prop=pageprops&titles=Steve_Carell

这将在页面的页面属性中返回以下属性:

"wikibase-shortdesc": "American actor"

根据您的用例,这可能更合适。

您甚至可以通过一个合并的请求获得两个结果: https://en.wikipedia.org/w/api.php?action=query&prop=extracts|pageprops&exsentences=1&titles=Steve_Carell

相关问题