python - 禁用scrapy的图像下载的最佳方法是什么？

时间：2019-11-11 12:17:41

标签： python python-3.x web-scraping scrapy

默认情况下未禁用它。

我写了一个蜘蛛，每小时消耗近2 GB的数据。现在，我想节省数据消耗，图像对我来说毫无用处，因此，请确保不要获取它们。

鉴于这是一个P0场景，它应该是settings.py中的一个简单标志，但是令人惊讶的是，从文档中我找不到任何标志。我发现了许多有关ImagesPipeline，启用这些管道及其存储等的详细信息，但对那些对图像不感兴趣的人没有标记。让我知道我是否想念任何东西。

答案 0 :(得分：1)

除非明确要求Scrapy进行下载，否则不会下载图像。

您可以在运行时日志中记录Scrapy下载的URL。如果图像URL没有出现在日志中，则即使下载了包含图像的网页，也不会下载该图像。

在网络浏览器中打开下载的页面时，网络浏览器会即时下载图像。它们不是来自下载的网页，它们通常不是嵌入在网页中，该网页指示它们在Internet中的位置，并且网络浏览器会下载它们以显示它们，但是Scrapy不会。

唯一的例外是图像实际上是作为base64嵌入HTML代码中的。这是罕见的，可能不是您的情况。而且，当发生这种情况时，您将无法阻止其下载，也无法下载排除了部分内容的网页。