我正在尝试对维基百科数据进行一些研究,我擅长Python。
我遇到过这个图书馆,看起来不错:https://pypi.python.org/pypi/wikipedia/
我不想直接点击维基百科,因为这很慢,而且我也试图访问大量数据并可能遇到他们的API限制。
我可以以某种方式破解它,使其访问维基百科数据的本地实例。我知道我可以运行一个完整的维基百科服务器并尝试这样做,但这似乎是一个圆的方式。
有没有办法只指向该文件夹并让这个库工作。或者您是否知道其他任何库都这样做?
谢谢你。答案 0 :(得分:2)
我想出了我需要的东西。我想我不应该在寻找API,我正在寻找的是一个解析器。到目前为止,我已经缩小了几个选项。两者似乎都是坚实的起点。
wikidump: https://pypi.python.org/pypi/wikidump/0.1.2
mwlib: https://pypi.python.org/pypi/mwlib/0.15.14
更新:虽然这些是维基百科数据的良好解析器,但我发现它们在某种程度上限制太多,更不用说缺少文档了。所以我最终选择了古老的python ElementTree并直接使用XML。