Question

我正在尝试抓取包含零件图像的零件网站的一部分，以收集一些统计信息。但是，没有url或图像上传或创建日期，因此我必须使用近似图像文件 modification-date 来获取此信息。使用 cURL ，这很容易做到：

curl -sI https://path.to.com/blahblah_123/item_picture.jpg |grep "last-modified"

但是，我认为将其放入 scrapy 蜘蛛会更方便。但我不知道scrapy是否完全支持这一点，因为我无法在文档中找到它。

是否有办法让刮擦的图像的最后修改日期保留在刮擦状态？

Answer 1

根据Scrapy的文档，response有一个headers dict字段。

因此，您可以使用last-modified访问response.headers.get('Last-Modified')。