我正在努力梳理维基百科的文章,并希望每篇文章都有以下信息:
纯文本内容,链接,重定向(重定向到当前页面的页面标题)和元数据(每月的页面浏览和编辑)
MediaWiki API非常全面,但由于它是用于编辑页面而非常密集的。我已经尝试过维基百科和mwclient模块,但这些模块没有可用的元数据。是否有另一种可用的工具可以提供API的只读功能而不需要API的开销?
答案 0 :(得分:3)
有一些alternative parsers但一般来说MediaWiki的解析很难复制(它没有正式的规范,并且实现为一堆乱七八糟的正则表达式)。使用API或DB dumps几乎总是更好。具体而言,链接和重定向可用作数据库转储中的表。文字可通过extracts API获取,网页浏览量为a work in progress。我不认为汇总的编辑数据可用。