从维基百科文章中提取统计信息

时间:2012-12-20 01:38:48

标签: python sparql wikipedia information-retrieval dbpedia

我目前正在使用SPARQLWrapper for python从DBpedia文章中提取数据,但我似乎无法找到如何提取给定文章的观察者数量(以及其他统计信息)。

有没有简单的方法来实现这一目标?我不介意它是通过DBpedia,还是直接通过维基百科(例如使用wget)。

感谢您的任何建议。

1 个答案:

答案 0 :(得分:4)

禁止shell获取每篇任意文章的观察者数量,因为如果每个人都能找到未见过的页面,就会被认为是安全漏洞。例如,只有特权用户才能访问Special:Unwatched Pages。有一个toolserver tool(可以访问数据库)显示观察者的数量,但它仅限于拥有超过30个观察者for the same reasons的网页 - 至少是未经身份验证的。

虽然您可以查询和评估MediaWiki query APIcontent and status information以获取统计信息,但public logs仅公开 <{3}}。有关(公共)用户操作的数据。有关维基媒体网站的更多统计信息,您可以查看revision histories,其中列出了各种数据源(主要是Meta:Statistics)及其可视化。