维基百科API以文本格式获取特定搜索文本

时间:2012-08-09 06:28:00

标签: php mediawiki wiki wikipedia wikipedia-api

我想将“United States of America”的所有内容grep到没有图像的文本文件中。我正在寻找文本格式的回复。

我该怎么做?我得到了这个网址:http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=united_states&prop=revisions&rvprop=content

但我没有得到我想要的东西。也许我错过了一些基本的东西。

  1. 如何获取查询中提供的任何字符串的内容?请帮我解决这个问题。

  2. 我想在文本文件中使用它。我能以文本格式获得回复吗?除了XML和JSON?

  3. 在美国的例子中,我希望获得城市的第一列主要人口中心。是否可以获取该信息(或)我应该使用解析器?

1 个答案:

答案 0 :(得分:2)

如果您只需要文章的文字,action=raw比使用API​​简单得多:

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css&templates=expand

ctype=text/css仅在您想要在浏览器中打开时才重要。)

目前尚不清楚你在第3点讨论的是什么,但如果你想从表中提取数据,最好的办法是获取渲染(HTML)内容并使用某种DOM解析器(并保留一半)关注Wikidata,这将使事情在几个月内变得更加简单。)