我想在我的scrapy items.py
文件中包含一个响应字段,如下所示:
class ScrapyItem(Item):
title = Field()
h1 = Field()
response = Field()
我以为我可以在response.status
文件中使用spider.py
,但每次都会给我一个200
状态代码。如果页面被重定向或找不到,我希望用301
,302
或404
填写。
在Scrapy中有没有办法做到这一点?
答案 0 :(得分:0)
在您的蜘蛛中,将以下内容写入handle error responses
handle_httpstatus_list = range( 400, 427 ) + range( 500, 511 )
禁用处理3xx状态标题的RedirectMiddleware
现在,您可以从response.status
字段中读取状态。