如何获取维基百科页面的HTML内容文本(通过维基百科API)?

时间:2011-05-07 08:56:44

标签: php wikipedia-api

我只想获得内容(没有链接,没有类别,没有图片......只是文字)

1 个答案:

答案 0 :(得分:10)

无法从维基百科API中获取“仅文本”。您可以下载页面的HTML(如果您通过index.php而不是api.php执行此操作,请使用action=render以避免下载所有皮肤内容)或wiki文本(您可以通过API或将action=raw传递给index.php);然后你必须自己解析它以删除你不想保留的位。

在HTML输出中,MediaWiki通常很适合将类添加到您可能想要过滤掉的各种界面元素中;用户创建的模板等可能不那么简单(例如,hack for table sorting只是将一些文本放在display:none范围内,没有类。)

要通过API获取wiki文本,请使用prop=revisions。要获取呈现的HTML,请使用action=parse