维基百科Api获得了大量的单词

时间:2014-05-14 23:00:18

标签: mediawiki wikipedia-api mediawiki-api

我对维基百科api的所有选项都有点困惑。 我的目标是获取维基百科页面的单词数量。 我有维基的网址。

搜索选项会返回此值:

http://en.wikipedia.org/w/api.php?format=xml&action=query&list=search&srsearch=camera&srlimit=1

Wil返回

<api>
<query-continue>
<search sroffset="1"/>
</query-continue>
<query>
<searchinfo totalhits="68658"/>
<search>
<p ns="0" title="Camera" snippet="A <span class='searchmatch'>camera</span> is an optical instrument that records image s that can be stored directly, transmitted to another location, or both. <b>...</b> " size="43246" wordcount="6348" timestamp="2014-04-29T15:48:07Z"/>
</search>
</query>
</api>

(向右滚动一下,您会找到 wordcount

但是此查询正在进行搜索并显示1个最佳结果。但是,当我在URL中搜索维基百科名称时,它并不总是将该记录作为第一个结果。

那么有没有办法让这个wordcount成为维基百科页面?

1 个答案:

答案 0 :(得分:4)

没有其他API提供此信息,因此使用list=search的kludge是唯一的方法。如果您知道确切的标题,则可以通过将&srwhat=nearmatch附加到查询中来获得更好的结果(但它总会返回1个结果)。请参阅the docs并尝试the sandbox了解详情。

请注意,字数不存储在数据库中,因此API必须转到Lucene / Elasticsearch以获取此信息并不是很快,因此如果您需要这些信息,则应该下载dump