默认情况下未禁用它。
我写了一个蜘蛛,每小时消耗近2 GB的数据。现在,我想节省数据消耗,图像对我来说毫无用处,因此,请确保不要获取它们。
鉴于这是一个P0场景,它应该是settings.py
中的一个简单标志,但是令人惊讶的是,从文档中我找不到任何标志。我发现了许多有关ImagesPipeline
,启用这些管道及其存储等的详细信息,但对那些对图像不感兴趣的人没有标记。让我知道我是否想念任何东西。
答案 0 :(得分:1)
除非明确要求Scrapy进行下载,否则不会下载图像。
您可以在运行时日志中记录Scrapy下载的URL。如果图像URL没有出现在日志中,则即使下载了包含图像的网页,也不会下载该图像。
在网络浏览器中打开下载的页面时,网络浏览器会即时下载图像。它们不是来自下载的网页,它们通常不是嵌入在网页中,该网页指示它们在Internet中的位置,并且网络浏览器会下载它们以显示它们,但是Scrapy不会。
唯一的例外是图像实际上是作为base64嵌入HTML代码中的。这是罕见的,可能不是您的情况。而且,当发生这种情况时,您将无法阻止其下载,也无法下载排除了部分内容的网页。