我正在尝试抓取包含零件图像的零件网站的一部分,以收集一些统计信息。但是,没有url或图像上传或创建日期,因此我必须使用近似图像文件 modification-date 来获取此信息。使用 cURL ,这很容易做到:
curl -sI https://path.to.com/blahblah_123/item_picture.jpg |grep "last-modified"
但是,我认为将其放入 scrapy 蜘蛛会更方便。但我不知道scrapy是否完全支持这一点,因为我无法在文档中找到它。
是否有办法让刮擦的图像的最后修改日期保留在刮擦状态?
答案 0 :(得分:2)
根据Scrapy的文档,response
有一个headers
dict字段。
因此,您可以使用last-modified
访问response.headers.get('Last-Modified')
。