应用错误收集

我想从Wikipedia转储中提取所有Wikipedia页面的第一段，最好使用python。我尝试了一些库（gensim，mwparserfromhell等），但它们似乎都经常产生不良内容。 wikipedia程序包似乎有效，但是它是通过调用API来获取摘要来完成的，在每篇维基百科文章上这样做都不实际。

我还检查了摘要转储文件，它似乎有问题。例如。对于Autism，<abstract>元素是“ | duration = Long-term”。但是，

https://en.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exintro&explaintext&redirects=1&titles=Autism

似乎产生正确的数据。无论如何，有没有从转储文件中提取类似的东西？

有没有一种方法可以解析所有维基百科介绍部分？

0 个答案: