我使用lucene的ExtractWikipedia工具来提取最新英文维基页面的bz2转储。生成的.txt文件仍然包含维基百科标记语言。是否有工具或python脚本可以在目录上运行,只解析目录中每个文件的内容? (即:修改文件,使它们只包含内容,没有标记)
或者,是否有可以实现此目的的java库或包?我希望将它集成到Lucene类ExtractWikipedia中。
答案 0 :(得分:0)
你可以试试这个wikiprep它是一个现成的perl脚本(你需要先安装perl)
http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/
可能需要几个小时才能在所有维基百科上运行 并且可能需要大约6GB内存的大内存