我想从Wikipedia转储中提取所有Wikipedia页面的第一段,最好使用python。我尝试了一些库(gensim,mwparserfromhell等),但它们似乎都经常产生不良内容。 wikipedia
程序包似乎有效,但是它是通过调用API来获取摘要来完成的,在每篇维基百科文章上这样做都不实际。
我还检查了摘要转储文件,它似乎有问题。例如。对于Autism
,<abstract>
元素是“ | duration = Long-term”。但是,
似乎产生正确的数据。无论如何,有没有从转储文件中提取类似的东西?