访问JSON提要

时间:2013-05-21 14:01:08

标签: python json web-scraping

我想自动访问JSON Feed。

假设我获得this website,表格中的信息通过另一个链接获得:http://www.cmegroup.com/CmeWS/mvc/ProductSlate/V1/List/500/1?sortField=oi&sortAsc=false&venues=3&page=1&cleared=1&group=7&r=rSG3qVq3   (来自XHR)但是还有3个其他页面(如上表所示),它们也包含这样的表格。 我想访问(假设n页)和(n个表,每页1个)。有自动方法吗?

现在,我已经复制了每个JSON源的链接,并将其存储在我从文件中读取的txt文件中。

2 个答案:

答案 0 :(得分:1)

更改网址中的字段500/1page=1。类似的东西:

page = 2
url = 'http:/ ... st/500/{0}?sortField=oi ... page={0}&clear ...'.format(page)

要查找您应该删除原始页面的页数,例如(未经测试)使用pyquery

from pyquery import PyQuery as pq
d = pq(html)
selector = '#cmeProductSlatePaginiationTop ul'
n_pages = len(d(selector))-2

答案 1 :(得分:1)

我打开了chrome的开发人员工具网络标签。当按下指向第二页的链接时,这是XHR网址:

http://www.cmegroup.com/CmeWS/mvc/ProductSlate/V1/List/500/2?sortField=oi&sortAsc=false&group=7&page=2&r=hkVMMcCL

如您所见,您需要更改/List/500/1以及page=1字段。开发人员工具对于这类事情非常有用。