大量摘录维基百科

时间:2017-05-07 19:08:19

标签: mediawiki wikipedia wikipedia-api

有没有办法从维基百科中获取所有标题/摘录对?到目前为止,我发现了两种方式:

  • 下载摘录转储,但它包含不完整/无效的摘录,作为我想文章的第一行。
  • 使用MediaWiki API请求摘录,但它非常慢,因为每个请求只能获得一个摘录(批量查询不适用于摘录):
  

/w/api.php?action=query&format=json&titles=Main   页面&安培;重定向&安培;丙=提取物&安培; explaintext =安培; exintro =

我想获取摘录,因为它们是由MediaWiki API生成的,没有加载维基百科服务器。 有可能吗?

P.S。我需要摘录作为纯文本。不需要维基文本或格式。

更新。可以通过MediaWiki API一次最多获得20个摘录:

  

参见 https://en.wikipedia.org/w/api.php?action=help&modules=query%2Bextracts

     

&安培; exlimit = 20

1 个答案:

答案 0 :(得分:1)

目前无法实现。 Cou可以查看雅虎摘要in the dumps,它试图做类似的事情(尽管不是很好)。它们由the ActiveAbstract extension提供支持。