应用错误收集

从目录中的文件中解析Wikipedia标记

时间：2011-10-27 21:02:57

标签： java parsing wikipedia

我使用lucene的ExtractWikipedia工具来提取最新英文维基页面的bz2转储。生成的.txt文件仍然包含维基百科标记语言。是否有工具或python脚本可以在目录上运行，只解析目录中每个文件的内容？（即：修改文件，使它们只包含内容，没有标记）

或者，是否有可以实现此目的的java库或包？我希望将它集成到Lucene类ExtractWikipedia中。

1 个答案:

答案 0 :(得分：0)

你可以试试这个wikiprep它是一个现成的perl脚本（你需要先安装perl）

删除了wikimarkup语言
生成heirarchial类别
删除重定向
生成易于解析的XML格式

http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

可能需要几个小时才能在所有维基百科上运行并且可能需要大约6GB内存的大内存