从Wikipedia / Wikimedia修订页面中提取更改

时间:2017-09-02 05:10:04

标签: wikipedia-api mediawiki-api

我对维基媒体/维基百科API有一个简单的询问。

我必须从“revids”列表中获取所做的更改。我可以获取一批“revids”的XML内容,但是我没有提取更改的文本。

API是否提供了仅提取已更改句子的方法?如果没有任何外部脚本/模块可以完成这项工作?

查询以获取修订详情: https://en.wikipedia.org/w/api.php?action=query&prop=info|revisions&rvprop=user|userid|ids|tags|comment|content&format=jsonfm&revids=1228415

我很感激任何可以解决这个问题的建议/解决方案!

(目前,我正在使用Wikitools python模块进行查询)

1 个答案:

答案 0 :(得分:0)

您可以使用action=compare获取旧文本和新文本之间的差异,但它会通过wikitext行划分文本,而不是句子,并不意味着机器可读,并且通常没那么有用。由于您使用的是Python,因此客户端库deltas可能会更适合您。