应用错误收集

我一直在搜索如何抓取一些wiki（即https://fr.vikidia.org/和https://fr.wikimini.org/）来为NLP创建纯文本语料库。

据我了解，为维基百科这样做通常是通过从https://dumps.wikimedia.org/下载转储并使用WikiExtractor之类的解析器工具来完成的，但似乎我无法从这些转储中获取转储转储网站上的wiki，是不是？

在MediawikiAPI的Help:Export页面之后，到目前为止我找到了两个部分答案：

1）为这些wiki配置MediawikiAPI，并使用带有-search

选项的脚本listpages.py

问题：我同时为每篇文章在一个文件中保存了10,000个页面的内容，但是这个内容被保存为带有模板的格式化文本而不是XML，这使得它不能用于WikiExtractor，所以我无法在这里访问纯文本。

2）关注these instructions以获取页面名称列表特殊：每个维基的所有页面，将其粘贴到其页面中特殊：导出并生成XML转储

问题：这次我得到一个由WikiExtractor正确解析的格式，产生纯文本，但我需要为数百页重现此操作特殊：每个维基的所有页面，这是不实用的一点都不。

你知道我怎么能从wiki变成纯文本吗？