我只想获得内容(没有链接,没有类别,没有图片......只是文字)
答案 0 :(得分:10)
无法从维基百科API中获取“仅文本”。您可以下载页面的HTML(如果您通过index.php而不是api.php执行此操作,请使用action=render
以避免下载所有皮肤内容)或wiki文本(您可以通过API或将action=raw
传递给index.php);然后你必须自己解析它以删除你不想保留的位。
在HTML输出中,MediaWiki通常很适合将类添加到您可能想要过滤掉的各种界面元素中;用户创建的模板等可能不那么简单(例如,hack for table sorting只是将一些文本放在display:none
范围内,没有类。)
要通过API获取wiki文本,请使用prop=revisions
。要获取呈现的HTML,请使用action=parse
。