无法从Scrapy脚本访问request.response.meta [' redirect_urls']

时间:2016-04-14 09:13:28

标签: python web-scraping scrapy web-crawler

我无法从Scrapy脚本访问request.response.meta['redirect_urls'],但在Scrapy shell中访问同一网页的信息时没有问题。当我打印request.response.meta的密钥时,我只看到download_timeout, depth, download_latency, download_slot

我想知道这是否与我在Scrapy脚本中修改过的设置有关,其中包含以下内容:

settings.set('DEPTH_LIMIT', 4)
settings.set('DOWNLOAD_DELAY', 1)
settings.set('USER_AGENT', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko)')
settings.set('SPLASH_URL', 'http://192.168.59.103:8050')
settings.set('DOWNLOADER_MIDDLEWARES', {'scrapyjs.SplashMiddleware': 725})
settings.set('DUPEFILTER_CLASS', 'scrapyjs.SplashAwareDupeFilter')
settings.set('HTTPCACHE_STORAGE', 'scrapyjs.SplashAwareFSCacheStorage')

我知道重定向也是由中间件处理的,所以这是一个问题,因为我使用SplashMiddleware并且可以同时使用它们吗?我知道重定向是通过查看response.url

发生的

非常感谢

0 个答案:

没有答案