从Wikipedia数据库转储生成纯文本

时间:2014-03-31 21:53:23

标签: python xml database shell wikipedia

我发现了一个可以从here: Wikipedia Extractor生成纯文本的Python脚本((English) Wikipedia database dump)。 当我使用此命令时(如脚本页面上所述):

$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted

我收到此错误:

  

文件“enwiki-latest-pages-articles.xml”,第1行   < mediawiki xmlns =“http://www.mediawiki.org/xml/export-0.8/”xmlns:xsi =“http://www.w3.org/2001/XMLSchema-instance”xsi:schemaLocation =“http:/ /www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd“version =”0.8“xml:lang =”en“>

^
SyntaxError: invalid syntax

我正在使用Python 2.7.6&amp ;;执行脚本。 Windows 7上的Cygwin。

我希望如果有人已经使用过这个脚本或使用Python的经验可以帮助我解决这个错误。

提前致谢!

1 个答案:

答案 0 :(得分:15)

python的第一个参数应该是脚本名称。

您可能需要交换xmlpy文件名:

$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted