Question

我只是想跟进这个question。

所以，我下载了2014年2月的Wikipedia转储并按照建议运行WikiExtractor.py命令：

cat mywiki-pages-articles.xml | python WikiExtractor.py -b 500K -o extracted

然而，经过一个多小时的运行，我得到的只是一个名为wiki_00的空文件。

你对这个问题有什么建议吗？

Answer 1

好的，所以我找到了解决这个问题的方法。

上次当我运行上面的命令时，我添加了＆＃34;屏幕＆＃34;在它之前的指示。在这种情况下，屏幕将只捕获xml文件而不将其调整到WikiExtractor.py。因此结果是一个空文件。

我通过将上面的命令放在一个文件中来修复它，使文件可运行并在其上运行screen命令。