在哪里/如何按浏览量获得10,000个维基百科的最佳文章标题?

时间:2019-04-23 04:27:18

标签: json dataset wikipedia wikipedia-api wikidata

我想通过English Wiki项目中的浏览量获得约10,000个Wikipedia头条文章 titles

不需要需要页面浏览量来提供数据。我只需要知道自己拥有10,000个文章标题就可以了。

前10,000个列表很不错,因为我可以用它来抓取。 前X个的JSON会更好!

TopviewsMassviews是很好的资源,并且与我正在寻找的东西非常接近!

但是,Topviews将列表限制为490,而Massviews需要一个搜索词。我想要整个英语项目中最受欢迎的Wiki文章。

我愿意接受数据转储,API或任何其他现有工具。 感谢帮助Wiki。

1 个答案:

答案 0 :(得分:0)

以下是Massviews / Topviews工具的创建者,奇妙的Leon Ziemba先生对我上述问题的回答:

我不确定“所有类别”是什么意思。您是指整个项目中的所有文章吗?如果有帮助,可以使用https://tools.wmflabs.org/topviews

或者您是说要一次给Massviews几个类别?如果是这样,一种解决方法是结合使用Petscan,Page Pile和Massviews: *转到https://petscan.wmflabs.org/添加添加类别,选择“联合”作为“组合”,然后单击“执行!”。 *单击右上角的“输出”选项卡,选择“ PagePile”作为格式。其他选项可能保持原样。点击“执行!”再一次。 *您现在应该在PagePile上。在左上角将显示“桩号123”,其中123是桩号。注意这一点。 *返回Massviews。选择“页面桩”作为来源,并输入桩号。 *利润!

在Massviews中,有一个选项“包括所有子类别”。也许会对您有所帮助。但是,出于性能原因,您将获得超过20,000个结果。

如果按页面浏览量需要10,000页,那么对于所有英语Wikipedia中的所有页面,都必须使用原始数据集进行手动计算。实时查看每篇维基百科文章的工具是不可行的。原始数据集转储位于https://dumps.wikimedia.org/other/pageviews/