如何将每行的Wikipedia XML转储解析为一个文档?

时间:2013-01-18 23:24:40

标签: xml parsing wikipedia corpus

对于一个项目,我需要将Wikipedia XML转换转换为纯文本语料库文件,该文件每行保留一个文档。我找到了几种将XML转储分成几个不同文件的工具,但这不是所需的格式,我担心管理数百万个小文件会给我已经很慢的硬盘增加不必要的工作。

对此有什么良好的计划建议?

1 个答案:

答案 0 :(得分:0)

您可以使用任何流式XML解析器逐页读取转储,从页面文本中删除换行符并将其打印出来。如果您告诉我们您使用的是哪种语言,我们可能会提供更具体的建议。

(如果您正在使用Perl,我看到很多人推荐使用XML :: Twig模块,但即使是普通的XML :: Parser也可以做到这一点。)