我想使用DuckDuckGo
之类的MediaWiki API获得有关Wikipedia页面的最少信息。例如,史蒂夫·卡雷尔(Steve Carell):https://duckduckgo.com/?q=steve+carell&t=hp&ia=news&iax=about
如何使用HTML
格式的Wikipedia网址(例如https://en.wikipedia.org/wiki/Steve_Carell)获取此信息?
答案 0 :(得分:2)
您可以为此使用MediaWiki API。有一个扩展名TextExtracts,正是它的扩展名(它已安装在Wikipedia上)。
在您的情况下,例如: https://en.wikipedia.org/w/api.php?action=query&prop=extracts&exsentences=1&titles=Steve%20Carell
将返回类似:
<p class=\"mw-empty-elt\">\n</p>\n\n<p class=\"mw-empty-elt\">\n \n</p>\n<p><b>Steven John Carell</b> (<span></span>; born August 16, 1962) is an American actor, comedian, producer, writer and director.</p>
您还可以自定义API返回的句子(或字符)数量,请查阅API documentation。
还有一种检索简短描述的方法,该描述保存在Wikidata中(在Wikipedia的移动视图中可见)。该调用为: https://en.wikipedia.org/w/api.php?action=query&prop=pageprops&titles=Steve_Carell
这将在页面的页面属性中返回以下属性:
"wikibase-shortdesc": "American actor"
根据您的用例,这可能更合适。
您甚至可以通过一个合并的请求获得两个结果: https://en.wikipedia.org/w/api.php?action=query&prop=extracts|pageprops&exsentences=1&titles=Steve_Carell