如何提取刮取图像的文件修改时间?

时间:2018-09-17 10:18:19

标签: python web-scraping scrapy scrapy-spider

我正在尝试抓取包含零件图像的零件网站的一部分,以收集一些统计信息。但是,没有url或图像上传或创建日期,因此我必须使用近似图像文件 modification-date 来获取此信息。使用 cURL ,这很容易做到:

curl -sI https://path.to.com/blahblah_123/item_picture.jpg |grep "last-modified"

但是,我认为将其放入 scrapy 蜘蛛会更方便。但我不知道scrapy是否完全支持这一点,因为我无法在文档中找到它。

是否有办法让刮擦的图像的最后修改日期保留在刮擦状态?

1 个答案:

答案 0 :(得分:2)

根据Scrapy的文档,response有一个headers dict字段。

因此,您可以使用last-modified访问response.headers.get('Last-Modified')