我需要下载一个包含密集型ajax的网页。目前,我正在使用Scrapy与Ajaxenabled。写完这个回复后,在浏览器中打开它。仍有一些请求已启动。我不确定呈现的响应是否只包含第一级请求。那么,我们怎样才能让scrapy将所有子请求包含在一个响应中?
现在在这种情况下,有72个请求作为在线开放发送,其中23个请求作为离线开放。
真的很感激!
以下是在下载
之前和之后发送的请求的屏幕截图以下是代码:
class SeedinvestSpider(CrawlSpider):
name = "seedinvest"
allowed_domains = ["seedinvest.com"]
start_urls = (
'https://www.seedinvest.com/caplinked/bridge',
)
def parse_start_url(self, response):
item = SeedinvestDownloadItem()
item['url'] = response.url
item['html'] = response.body
yield item
答案 0 :(得分:0)
代码如下:
class SeedinvestSpider(CrawlSpider):
name = "seedinvest"
allowed_domains = ["seedinvest.com"]
start_urls = (
'https://www.seedinvest.com/startmart/pre.seed',
)
def parse_start_url(self, response):
item = SeedinvestDownloadItem()
item['url'] = response.url
item['html'] = response.body
yield item