Question

我正在使用Scrapy从大型在线数据库下载图像。我使用过ImagesPipeline：

ITEM_PIPELINES = {'scrapy.contrib.pipeline.images.ImagesPipeline': 1}
IMAGES_STORE = './images'

它就像一个魅力！

问题：我在images文件夹（＆gt; 100000）中有批次的图片。我想知道是否有办法更好地处理该卷：

或

或

这个想法真的是让操作，移动，编辑，索引，搜索下载的数据变得更加容易。

Answer 1

您可以将自己的扩展名写入ImagesPipeline，因此我建议您按照自己的意愿执行此操作并实施解决方案。

您可以从计算导出的图像开始，然后创建一个新的子文件夹，在每1000个（或设置）之后下载到该文件夹然后压缩它，或者例如在创建新文件夹后生成一个新进程，该进程创建一个存档旧文件夹的内容。

您可以阅读有关在docs中扩展管道的更多信息。