将Wikipedia转储为纯文本,保留结构(部分)

时间:2016-02-21 12:27:12

标签: mediawiki wiki wikipedia mediawiki-templates

我一直在搜索wikipedia转储解析器到可自定义的xml中,基本上每篇文章都应解析成一组section标签,包含文章的纯文本部分。我想出了以下解决方案

第一个问题是它仅在Windows上可用,而第二个不能提供在嵌套xml方案中生成部分的能力。 mwlib的先前实现似乎提供了这样的功能,但遗憾的是新版本没有。 linux上是否有可以生成可自定义xmls的wikipedia xml转储解析器?

1 个答案:

答案 0 :(得分:0)

我认为使用jsonwikipedia [1]是可行的。从Wikipedia XML转储中生成“json转储”。有关jsonwikipedia和其他工具的更多详细信息,请参阅此博客文章[2]

[1] - https://github.com/idio/json-wikipedia

[2] - http://engineering.idioplatform.com/2016/02/18/wikipedia-toolkit.html