应用错误收集

从维基百科文章中提取统计信息

时间：2012-12-20 01:38:48

标签： python sparql wikipedia information-retrieval dbpedia

我目前正在使用SPARQLWrapper for python从DBpedia文章中提取数据，但我似乎无法找到如何提取给定文章的观察者数量（以及其他统计信息）。

有没有简单的方法来实现这一目标？我不介意它是通过DBpedia，还是直接通过维基百科（例如使用wget）。

感谢您的任何建议。

1 个答案:

答案 0 :(得分：4)

禁止shell获取每篇任意文章的观察者数量，因为如果每个人都能找到未见过的页面，就会被认为是安全漏洞。例如，只有特权用户才能访问Special:Unwatched Pages。有一个toolserver tool（可以访问数据库）显示观察者的数量，但它仅限于拥有超过30个观察者for the same reasons的网页 - 至少是未经身份验证的。

虽然您可以查询和评估MediaWiki query API或content and status information以获取统计信息，但public logs仅公开 <{3}}。有关（公共）用户操作的数据。有关维基媒体网站的更多统计信息，您可以查看revision histories，其中列出了各种数据源（主要是Meta:Statistics）及其可视化。