我想通过English Wiki项目中的浏览量获得约10,000个Wikipedia头条文章 titles 。
我不需要需要页面浏览量来提供数据。我只需要知道自己拥有10,000个文章标题就可以了。
前10,000个列表很不错,因为我可以用它来抓取。 前X个的JSON会更好!
Topviews和Massviews是很好的资源,并且与我正在寻找的东西非常接近!
但是,Topviews将列表限制为490,而Massviews需要一个搜索词。我想要整个英语项目中最受欢迎的Wiki文章。
我愿意接受数据转储,API或任何其他现有工具。 感谢帮助Wiki。
答案 0 :(得分:0)
以下是Massviews / Topviews工具的创建者,奇妙的Leon Ziemba先生对我上述问题的回答:
我不确定“所有类别”是什么意思。您是指整个项目中的所有文章吗?如果有帮助,可以使用https://tools.wmflabs.org/topviews。
或者您是说要一次给Massviews几个类别?如果是这样,一种解决方法是结合使用Petscan,Page Pile和Massviews: *转到https://petscan.wmflabs.org/添加添加类别,选择“联合”作为“组合”,然后单击“执行!”。 *单击右上角的“输出”选项卡,选择“ PagePile”作为格式。其他选项可能保持原样。点击“执行!”再一次。 *您现在应该在PagePile上。在左上角将显示“桩号123”,其中123是桩号。注意这一点。 *返回Massviews。选择“页面桩”作为来源,并输入桩号。 *利润!
在Massviews中,有一个选项“包括所有子类别”。也许会对您有所帮助。但是,出于性能原因,您将获得超过20,000个结果。
如果按页面浏览量需要10,000页,那么对于所有英语Wikipedia中的所有页面,都必须使用原始数据集进行手动计算。实时查看每篇维基百科文章的工具是不可行的。原始数据集转储位于https://dumps.wikimedia.org/other/pageviews/。