禁用scrapy的图像下载的最佳方法是什么?

时间:2019-11-11 12:17:41

标签: python python-3.x web-scraping scrapy

默认情况下未禁用它。

我写了一个蜘蛛,每小时消耗近2 GB的数据。现在,我想节省数据消耗,图像对我来说毫无用处,因此,请确保不要获取它们。

鉴于这是一个P0场景,它应该是settings.py中的一个简单标志,但是令人惊讶的是,从文档中我找不到任何标志。我发现了许多有关ImagesPipeline,启用这些管道及其存储等的详细信息,但对那些对图像不感兴趣的人没有标记。让我知道我是否想念任何东西。

1 个答案:

答案 0 :(得分:1)

除非明确要求Scrapy进行下载,否则不会下载图像。

您可以在运行时日志中记录Scrapy下载的URL。如果图像URL没有出现在日志中,则即使下载了包含图像的网页,也不会下载该图像。

在网络浏览器中打开下载的页面时,网络浏览器会即时下载图像。它们不是来自下载的网页,它们通常不是嵌入在网页中,该网页指示它们在Internet中的位置,并且网络浏览器会下载它们以显示它们,但是Scrapy不会。

唯一的例外是图像实际上是作为base64嵌入HTML代码中的。这是罕见的,可能不是您的情况。而且,当发生这种情况时,您将无法阻止其下载,也无法下载排除了部分内容的网页。