解析Wiki API内容

时间:2011-06-28 05:39:48

标签: php wiki wikipedia-api

我有来自API http://fr.wikipedia.org/w/api.php?action=query&titles=%C9rythropo%EF%E9tine&prop=revisions&rvprop=content&format=xmlfm

的这个wiki

我想从以下位置检索主要内容:

L''''érythropoïétine''' ('''EPO''') est une [[hormone]] ......etc

我尝试开始preg_replace从顶部开始的所有内容从单词“{{Chimiebox ...”开始到底部“}}”使用此

preg_replace( '/^{{(.*)}}$/sim', '', $value[0]['*'] );

但有点不起作用。任何人都知道确定内容开始的好方法吗?谢谢你的任何建议。

1 个答案:

答案 0 :(得分:0)

嗯,大多数项目直接使用Wikipedia Parser,例如我大学的Wikipedia Offline Client Project。由于您似乎使用的是php,这对您来说可能是最简单的方法。