我正在为网站撰写一个剪贴簿。然而奇怪的事情正在发生,它没有访问我提供给他的URL。而是访问网站的基本网址。
我在互联网上搜索并了解到,scrapy会在#之后进入URL,我需要识别正在发送的Ajax请求并模仿它。
然而问题是。 Ajax请求的响应来自json响应。这不是一个HTML内容。有人请帮我解决这个问题。
以下是网址
https://www.buildersshow.com/Search/Exhibitors.aspx#showID=11&state=160&tabname=name
答案 0 :(得分:0)
如果您调查页面发出的AJAX请求,请确定您需要发出的请求并获得响应,它应该是响应正文中包含的JSON。要解析它并获取您感兴趣的数据,请使用json
解码器/编码器模块。像这样:
import json
mydata = json.loads(response.body)
info = mydata['somekey']
subinfo = mydata['somekey']['subkey']
等等。确保以正确的方式处理json解码器,最好先阅读official documentation。