我只是想跟进这个question。
所以,我下载了2014年2月的Wikipedia转储并按照建议运行WikiExtractor.py
命令:
cat mywiki-pages-articles.xml | python WikiExtractor.py -b 500K -o extracted
然而,经过一个多小时的运行,我得到的只是一个名为wiki_00的空文件。
你对这个问题有什么建议吗?
答案 0 :(得分:0)
好的,所以我找到了解决这个问题的方法。
上次当我运行上面的命令时,我添加了"屏幕"在它之前的指示。在这种情况下,屏幕将只捕获xml文件而不将其调整到WikiExtractor.py。因此结果是一个空文件。
我通过将上面的命令放在一个文件中来修复它,使文件可运行并在其上运行screen命令。