Scrapy - 从URL获取文件大小和类型而不下载文件?

时间:2014-12-22 01:34:15

标签: python header request web-scraping scrapy

在Scrapy中我想抓取一些包含大型.zip文件的页面,并检索有关这些文件的一些数据(大小,网址等)。我可以这样做的一种方法是产生对这些网址的请求,但我认为这会下载文件。如何只从拉链的URL中获取标题?最好不要抓取我想要标题的URL,而是以其他方式检索它吗?

1 个答案:

答案 0 :(得分:2)

收益率requests并指定HEAD作为方法:

yield Request(url, method="HEAD", callback=self.callback)

然后,在回调中读取response.headers的标题:

def callback(self, response):
    print response.headers