我想自动访问JSON Feed。
假设我获得this website,表格中的信息通过另一个链接获得:http://www.cmegroup.com/CmeWS/mvc/ProductSlate/V1/List/500/1?sortField=oi&sortAsc=false&venues=3&page=1&cleared=1&group=7&r=rSG3qVq3
(来自XHR)但是还有3个其他页面(如上表所示),它们也包含这样的表格。
我想访问(假设n页)和(n个表,每页1个)。有自动方法吗?
现在,我已经复制了每个JSON源的链接,并将其存储在我从文件中读取的txt文件中。
答案 0 :(得分:1)
更改网址中的字段500/1
和page=1
。类似的东西:
page = 2
url = 'http:/ ... st/500/{0}?sortField=oi ... page={0}&clear ...'.format(page)
要查找您应该删除原始页面的页数,例如(未经测试)使用pyquery:
from pyquery import PyQuery as pq
d = pq(html)
selector = '#cmeProductSlatePaginiationTop ul'
n_pages = len(d(selector))-2
答案 1 :(得分:1)
我打开了chrome的开发人员工具网络标签。当按下指向第二页的链接时,这是XHR网址:
如您所见,您需要更改/List/500/1
以及page=1
字段。开发人员工具对于这类事情非常有用。