寻找wikidump python lib的示例或文档

时间:2013-04-17 20:21:54

标签: python mediawiki wikipedia

我偶然发现了wikidump python库,我觉得这很适合我。

我可以通过查看源代码来了解,但我在python上是新手,我不想编写BS代码,因为我需要它的项目对我来说很重要。< / p>

我得到了&wiki-SPECIFICDATE-pages-articles.xml.bz2&#39;文件,我需要使用它作为我的单篇文章提取的来源。任何人都可以给我一些关于正确实现这一点的指示,或者甚至更好地指出一些文档?我找不到任何东西!

(如果你有更好的文档&#39; d lib,请告诉我)

1 个答案:

答案 0 :(得分:0)

不确定我是否理解这个问题,但是如果你有维基百科转储而你需要解析wikicode,我会建议mwparserfromhell lib。

另一个强大的框架是Pywikibot,这是维基百科上bot用户的历史框架(因此,它有许多专门用于编写页面的脚本,而不是阅读和解析文章)。它有很多文档(虽然有时已经过时),它使用MediaWiki API。

当然,您可以同时使用它们:PWB用于获取文章,而mwparserfromhell用于解析。