我维护了一个业余爱好网站,其中包括记录特定网页商店中某些商品是否已印刷或绝版。
商店管理层会在缺货时删除商品,并在商品重新库存时重新添加商品。
为项目标题抓取类别页面的项目列表很容易,但我不确定如何处理结果比显示的更多的页面。
页面默认为10个项目,单击“下一步”将通过AJAX加载下一个项目。
是否有处理和抓取此类设置的标准方法?
答案 0 :(得分:2)
如果您使用Web浏览器的开发人员功能(Firebug,Inspector,开发人员工具......),您应该能够看到通过Ajax检索数据的连接以及发送和接收的请求和响应标头
请求标头将包含正在发送的数据以及已请求的URL。 URL或POST数据的查询字符串很可能包含“开始”或“下一个”或一些参数,用于标识要返回的结果的开始和数量。
然后,您可以使用PHP和cURL自动完成剩余的过程。
以下是OS X上Safari 5.1中“Web Inspector”的截图(Chrome看起来相同):
这里与您相关的是Request URL
,Request Method
以及Form Data
下的内容。左侧的文本(浅灰色)是参数,右侧的文本是值。