我一直在搜索如何抓取一些wiki(即https://fr.vikidia.org/和https://fr.wikimini.org/)来为NLP创建纯文本语料库。
据我了解,为维基百科这样做通常是通过从https://dumps.wikimedia.org/下载转储并使用WikiExtractor之类的解析器工具来完成的,但似乎我无法从这些转储中获取转储转储网站上的wiki,是不是?
在MediawikiAPI的Help:Export页面之后,到目前为止我找到了两个部分答案:
1)为这些wiki配置MediawikiAPI,并使用带有-search
选项的脚本listpages.py问题:我同时为每篇文章在一个文件中保存了10,000个页面的内容,但是这个内容被保存为带有模板的格式化文本而不是XML,这使得它不能用于WikiExtractor,所以我无法在这里访问纯文本。
2)关注these instructions以获取页面名称列表特殊:每个维基的所有页面,将其粘贴到其页面中特殊:导出并生成XML转储
问题:这次我得到一个由WikiExtractor正确解析的格式,产生纯文本,但我需要为数百页重现此操作特殊:每个维基的所有页面,这是不实用的一点都不。
你知道我怎么能从wiki变成纯文本吗?