我想知道是否有可能使用scrapy Request来检查网址的有效性,然后再进行网页的实际处理(网址预先不知道,但可能会测试它们出现的不同模式)。
失败的示例代码如下。
(为简单起见,使用了Reties变量,测试条件也可以像s.th一样
if response.code != 200
)
代码失败,因为在第二次回调(parse_page_2
)结束时,即使发出新请求,控制也不会返回到第一个回调(parse_page_1
),具有回调{{1 }}。
为什么会这样?
我知道基于parse_page_1
的解决方案显示here,只是检查是否可以在scrapy环境中严格完成。
urllib2
抓取抓取结果here。