Wikipedia API不会返回HTML中的相同内容

时间:2015-09-07 22:38:53

标签: wikipedia mediawiki-api

我正在尝试从维基百科中获取电视剧集列表,并且通过API返回的剧集列表与通过HTTP获取的剧集列表不匹配。

$ wget -O wiki-html -q "http://en.wikipedia.org/wiki/List_of_Agents_of_S.H.I.E.L.D._episodes"
$ grep 'Laws of Nature' wiki-html
<td class="summary" style="text-align:left">"Laws of Nature"<sup id="cite_ref-futon_52-0" class="reference"><a href="#cite_note-futon-52"><span>[</span>52<span>]</span></a></sup></td>
$ wget -O wiki-api -q "http://en.wikipedia.org/w/api.php?action=query&titles=List_of_Agents_of_S.H.I.E.L.D._episodes&prop=revisions&rvprop=content&format=json"
$ grep 'Laws of Nature' wiki-api
$

您可以看到“自然法则”剧集出现在HTML版本中,但不出现在JSON版本中。似乎没有多次修订,并且其他节目没有出现此问题。可能是什么问题?

2 个答案:

答案 0 :(得分:2)

如果你看the source code of the article,你会注意到这样的代码:

===Season 3=== <!--Do not add years until episodes have aired, as per WP:TVUPCOMING.-->
{{main|Agents of S.H.I.E.L.D. (season 3)}}
{{:Agents of S.H.I.E.L.D. (season 3)}}
<!-- To edit the episodes in this section, you need to edit the article listed above. -->

这意味着实际内容在文章Agents of S.H.I.E.L.D. (season 3)(特别是剧集部分)中,并且从那里被转录。

答案 1 :(得分:0)

如果您使用的是HTML内容,请使用rvparse=1选项。