我最近想使用脚本Wikiextractor从Wikipedia Cirrus转储中执行提取。
在“git clone”之后的所有文件,当我直接调用脚本时,它工作得很好
C:\Users\User\Documents\GitHub\wikiextractor>python wikiextractor.py enwiki-pages-articles.xml.bz2
但我也想安装它(通过运行提供的setup.py)并在其他目录中使用它。 在成功安装wikiextractor之后,我cd到具有相同文件的目录(enwiki-pages-articles.xml.bz2)并尝试再次运行该脚本。
C:\Users\User\Desktop\Wikidump>wikiextractor.py enwiki-pages-articles.xml.bz2
出现以下错误消息。
usage: WikiExtractor.py [-h] [-o OUTPUT] [-b n[KMG]] [-c] [--json] [--html]
[-l] [-s] [--lists] [-ns ns1,ns2]
[--templates TEMPLATES] [--no-templates] [-r]
[--min_text_length MIN_TEXT_LENGTH]
[--filter_disambig_pages] [-it abbr,b,big]
[-de gallery,timeline,noinclude] [--keep_tables]
[--processes PROCESSES] [-q] [--debug] [-a] [-v]
input
WikiExtractor.py: error: the following arguments are required: input
为什么会发生这种情况? 我希望我能清楚地解释一切。