标签: java python parsing wiki dump
将wiki转储解析为包含自生成文章ID和文章内容的格式的最佳方法是什么?
文章ID将是一个引用ID,而内容是纯文本,没有url没有引用。
答案 0 :(得分:1)
http://en.wikipedia.org/wiki/Wikipedia:Database_download#Database_schema
似乎很清楚。
http://www.mediawiki.org/wiki/Manual:Importing_XML_dumps
http://www.mediawiki.org/wiki/Pywikipediabot
似乎是你想要的代码。