如何在Scrapy中找出已抓取网页的大小?

时间:2014-04-21 07:54:43

标签: python web-crawler scrapy

我正在学习Scrapy 我想使用Scrapy查找已爬网页的大小或响应大小(KB或MB等) 我可以使用response.body找出已抓取网页的内容长度 找出每个request下载了多少数据的最简单方法是什么?

我试图理解this solution,这与我的要求相似。但我无法理解这段代码。

parse(self, response):
    url=response.url
    content=response.body
    #download_size= 

2 个答案:

答案 0 :(得分:1)

您可以使用通过阅读Response Object的headers属性中的content-length提供的信息来获取大小。

parse(self, response):
    url=response.url
    content=response.body
    #response length in bytes
    download_size= int(response.headers['content-length'])

答案 1 :(得分:0)

您可以简单地使用内置的response.body并将len应用于它。 只需

size=str(len(response.body)),