有没有一种方法可以解析所有维基百科介绍部分?

时间:2019-04-11 01:45:56

标签: wikipedia

我想从Wikipedia转储中提取所有Wikipedia页面的第一段,最好使用python。我尝试了一些库(gensim,mwparserfromhell等),但它们似乎都经常产生不良内容。 wikipedia程序包似乎有效,但是它是通过调用API来获取摘要来完成的,在每篇维基百科文章上这样做都不实际。

我还检查了摘要转储文件,它似乎有问题。例如。对于Autism<abstract>元素是“ | duration = Long-term”。但是,

https://en.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exintro&explaintext&redirects=1&titles=Autism

似乎产生正确的数据。无论如何,有没有从转储文件中提取类似的东西?

0 个答案:

没有答案