维基百科API返回文章中没有所有字符的摘录?

时间:2017-06-24 03:36:10

标签: java mediawiki wikipedia wikipedia-api mediawiki-api

不确定我是否应该在此问这个问题,但我无法理解。

我首先在维基百科的“Meme”文章(https://en.wikipedia.org/wiki/Meme)中看到了这个问题。发音中有几个特殊字符未出现在使用MediaWiki API(https://en.wikipedia.org/w/api.php?format=jsonfm&action=query&prop=revisions|extracts&redirects=true&titles=meme)查询的摘录中。

我无法在MediaWiki API文档或备选方案中找到解决方案(我尝试使用jsoup来解析整个页面,但在提取查询执行时无法可靠地从文章中获取内容。)

1 个答案:

答案 0 :(得分:2)

抽象API尝试以各种方式清理文本以使其更具可读性(您可能已经注意到发音前面的斜体句子也没有显示)。部分原因是使用noexcerpt类删除所有内容,其中包括拼写。 (将来,可能会完全删除parantheses中的文本来处理metadata creep。)