如果我有网页的网址,我如何使用MediaWiki网络服务获取右边的信息框信息?
答案 0 :(得分:16)
也许有点晚了,但我想要同样的事情,并没有在这里看到任何简单的解决方案,但是(正如Bryan所指出的)事实证明使用Mediawiki API与此库并不太难:
https://github.com/siznax/wptools
用法:
>>> import wptools
>>> so = wptools.page('Stack Overflow').get_parse()
>>> so.infobox
{'alexa': '{{DecreasePositive}}',
'author': '[[Joel Spolsky]] and [[Jeff Atwood]]',
'caption': 'Screenshot of Stack Overflow as of February 2015',
'commercial': 'Yes',
'content_license': '[[Creative Commons license|CC-BY-SA]] 3.0',
'current status': 'Online',
'landscape': 'yes',
'language': 'English',
'launch date': '{{start date and age|2008|9|15}}',
'logo': 'Stack Overflow logo.svg',
'name': 'Stack Overflow',
'owner': 'Stack Exchange, Inc.',
'programming_language': '[[C Sharp (programming language)|C#]]',
'registration': 'Optional; Uses [[OpenID]]',
'revenue': '',
'screenshot': 'Stack Overflow homepage.png',
'slogan': '',
'type': '[[:Category:Knowledge markets|Knowledge markets]]',
'url': '{{URL|https://stackoverflow.com}}'}
答案 1 :(得分:13)
我只想解析信息框,或者想要获取一些消化数据,看看DBPedia项目:http://dbpedia.org
它扫描WP中的信息框以从维基百科创建一个RDF数据库:https://github.com/dbpedia/extraction-framework/
答案 2 :(得分:11)
答案 3 :(得分:3)
每个维基百科页面都与维基数据项目相关联,所有这些项目都包含维基百科页面的信息框模板中的大多数参数。因此,您只需要从Wikidata API访问与您的维基百科页面相关联的数据。
如何从Donald Trump获取维基百科Wikidata item页面的数据的示例:
https://www.wikidata.org/w/api.php?action=wbgetentities&sites=enwiki&props=claims&titles=Donald Trump
回复将包括:出生日期和地点,图片,宗教,母亲,父亲,孩子,身高,签名,官方网站等...,所有关于唐纳德特朗普的主要信息都包含在维基百科信息框中。
答案 4 :(得分:1)
答案 5 :(得分:0)
在我们的项目中,我们使用查询从wiktionary获取数据,如下所示:
http://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fen.wiktionary.org%2Fwiki%2Flife%22%20and%20xpath%3D'%2F%2Fdiv%5B%40id%3D%22bodyContent%22%5D'&format=xml&diagnostics=false&env=store%3A%2F%2Fdatatables.org%2Falltableswithkeys&callback=recwiki
我对它没有全面的了解,但它确实有效。输出结果可以使用jquery或其他东西进行过滤。
答案 6 :(得分:0)
使用编辑模式怎么样?你可以从正确的TextArea开始(大部分时间包含id="wpTextBox1"
)并解析TextArea的内容......
我以前找到的URL是(注意:section = 0):
https://de.wikipedia.org/w/index.php?title=Pelephone&action=edit§ion=0
问候
答案 7 :(得分:-1)
使用MediaWiki,您可以使用以下链接查看维基百科页面右侧的信息框。如您所见,格式为JSON(可以更改),通过将“氢”字改为您想要的特定标题,您将获得一个带有信息框的页面。
https://en.wikipedia.org/w/api.php?action=parse&page=Template:Infobox%20hydrogen&format=json