我发现了一个可以从here: Wikipedia Extractor生成纯文本的Python脚本((English) Wikipedia database dump)。 当我使用此命令时(如脚本页面上所述):
$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted
我收到此错误:
文件“enwiki-latest-pages-articles.xml”,第1行 < mediawiki xmlns =“http://www.mediawiki.org/xml/export-0.8/”xmlns:xsi =“http://www.w3.org/2001/XMLSchema-instance”xsi:schemaLocation =“http:/ /www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd“version =”0.8“xml:lang =”en“>
^
SyntaxError: invalid syntax
我正在使用Python 2.7.6&amp ;;执行脚本。 Windows 7上的Cygwin。
我希望如果有人已经使用过这个脚本或使用Python的经验可以帮助我解决这个错误。
提前致谢!
答案 0 :(得分:15)
python
的第一个参数应该是脚本名称。
您可能需要交换xml
和py
文件名:
$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted