我正在尝试抓取网站http://www.olx.in/newdelhi/bmw/
中的olx.in,我已将此网址设置为start_url
。
现在转到下一页,因为它不是普通的HTML,但它是动态的,所以在网络选项卡中,我看到下一个按钮用POST
方法创建了一个XHR请求。现在我必须在请求方法中模拟它(我猜...)但我无法弄清楚它的参数是什么。
我是python和web-scraping的新手,很抱歉,如果它太笼统,但任何帮助都会受到赞赏。
答案 0 :(得分:0)
您应该查看FormRequest
,以便通过HTTP POST发送数据。如您所见,下一个按钮会创建一个http://www.olx.in/ajax/newdelhi/search/list/
的请求,其中包含一些表单数据。只需使用当前formdata
对象中的所需值填充Response
参数即可。当您尝试构建分页时,应该检查this page如何正确地进行分页。