Scrapy仅抓取http标头数据

时间:2015-03-11 09:35:19

标签: python http-headers scrapy

(如何)我可以认为scrapy只下载网站的标题数据(用于检查等)。

我试图禁用一些下载中间件,但它似乎无法正常工作。

1 个答案:

答案 0 :(得分:9)

就像@alexce所说,你可以发出HEAD Request而不是默认的GET:

Request(url, method="HEAD")

更新:如果您想对start_urls使用HEAD请求,则需要覆盖make_requests_from_url方法:

def make_requests_from_url(self, url):
    return Request(url, method='HEAD', dont_filter=True)