检索维基百科文章的第一段

时间:2012-02-22 05:47:25

标签: php api mediawiki wikipedia wikipedia-api

我一直在努力了解过去两天的MediaWiki文档,我无法弄清楚如何通过MediaWiki API检索维基百科文章的第一段。

有人能指出我正确的方向吗?

我即将诉诸于file_get_contents,但我确信这是一个“更清洁”的解决方案。

2 个答案:

答案 0 :(得分:2)

file_get_contents非常干净,您可以获得HTML代码。 然后,您可以使用DOMDocument解析html代码。 DOMDocument用作javascript,例如,你可以在div中获取所有<p>。 或抓住第一个。

例如:

$html = file_get_contents('the url');

$dom = new DomDocument();
@$dom->loadHTML($html);

$p = $dom->getElementsByTagName('p')->item(0)->nodeValue;

答案 1 :(得分:1)

不要尝试使用原始API,而是使用客户端包装器。这是一个很长的列表可供选择,全部用于PHP:

http://en.wikipedia.org/wiki/Wikipedia:PHP_bot_framework_table