如何使用php和wikipedia api找到大多数尚未在维基百科中搜索过的文章?

时间:2013-09-06 14:42:22

标签: php mediawiki wikipedia wikipedia-api mediawiki-api

我正在寻找php中的算法,该算法允许使用维基百科API或维基百科pagecounts dumps获取大多数尚未在维基百科(红色链接)(或其中一个子项目)中搜索的术语(文章)。我已经知道statsgrok统计数据(这个项目的维护者Henrik没有回应他在维基百科上的页面),但它没有提供任何关于“红色链接”的信息。我想获取有关用户在维基百科的搜索页面中放置一些单词的情况的统计数据,维基百科建议创建此页面,因为这个单词还没有在维基百科中。

编辑:实际上,维基媒体bugzilla已报告此错误:Bug 6373 — Provide a list of unsuccessful searches于2006年注册,但此错误的最后一项活动是在2012-04-02 18:58 UTC注册的。 ..所以,解决这个问题还有很长的路要走,我想也许,有人找到了解决这个问题的方法吗?

3 个答案:

答案 0 :(得分:1)

您应该file a bug请求在wikistats上的某处公开此信息。

或者,开始讨论wikitech-l,因为我确定其他人对获取此类数据感兴趣。

答案 1 :(得分:0)

如何跟踪数据库表中“已搜索但未找到”的搜索以及在单独的字段中搜索它们的次数?

这可以很容易地完成。但是你必须处理人们搜索的标题的差异,或者只是将它们分成单词并仅跟踪单词(忽略语法命题等)

答案 2 :(得分:0)

用户维护 list :West.andrew.g,暂时可能是获取该信息的最佳资源。该页面每周更新一次。如果您需要不同的参数(更高的更新频率,每周视图少于1k的红色链接等),您可以从该页面提取数据,或者实现与他所做的相同的方法。他似乎从Wikimedia dumps获取数据,并查询服务器上每个条目高于1k视图/周阈值。

顺便说一下,事实证明stats.grok.se 收集红色链接(example)的统计数据,虽然它没有列出这些页面的编译列表。