如果不使用item.py,则无法通过管道重命名下载的图像

时间:2019-02-17 20:37:53

标签: python python-3.x web-scraping scrapy scrapy-spider

我已经使用python的scrapy模块创建了一个脚本,可以从torrent网站中下载并重命名多个页面中的电影图像,并将它们存储在桌面文件夹中。关于将这些图像下载和存储在桌面文件夹中时,我的脚本完全相同。但是,我现在要做的就是即时重命名这些文件。由于我没有使用item.py文件,也不希望这样做,所以我几乎不了解pipelines.py文件的逻辑将如何处理重命名过程。

我的蜘蛛(It downloads the images flawlessly):

from scrapy.crawler import CrawlerProcess
import scrapy, os

class YifySpider(scrapy.Spider):
    name = "yify"

    allowed_domains = ["www.yify-torrent.org"]
    start_urls = ["https://www.yify-torrent.org/search/1080p/p-{}/".format(page) for page in range(1,5)]

    custom_settings = {
        'ITEM_PIPELINES': {'scrapy.pipelines.images.ImagesPipeline': 1},
        'IMAGES_STORE': r"C:\Users\WCS\Desktop\Images",
    }

    def parse(self, response):
        for link in response.css("article.img-item .poster-thumb::attr(src)").extract():
            img_link = response.urljoin(link)
            yield scrapy.Request(img_link, callback=self.get_images)

    def get_images(self, response):
        yield {
            'image_urls': [response.url],
        }

if __name__ == "__main__":
    c = CrawlerProcess({
        'USER_AGENT': 'Mozilla/5.0',   
    })
    c.crawl(YifySpider)
    c.start()

pipelines.py 包含:(the following lines are the placeholders to let you know I at least tried):

from scrapy.http import Request

class YifyPipeline(object):

    def file_path(self, request, response=None, info=None):
        image_name = request.url.split('/')[-1]
        return image_name

    def get_media_requests(self, item, info):
        yield Request(item['image_urls'][0], meta=item)

如何在不使用pipelines.py的情况下通过item.py重命名图像?

1 个答案:

答案 0 :(得分:3)

您需要继承原始ImagesPipeline的子类:

from scrapy.pipelines.images import ImagesPipeline

class YifyPipeline(ImagesPipeline):

    def file_path(self, request, response=None, info=None):
        image_name = request.url.split('/')[-1]
        return image_name

然后在您的设置中引用它:

custom_settings = {
    'ITEM_PIPELINES': {'my_project.pipelines.YifyPipeline': 1},
}

但是请注意,当不同的文件具有相同的名称时,除非您在文件名中添加唯一的文件夹结构或其他组件,否则简单的“使用确切的文件名”构想会引起问题。这是默认情况下使用基于校验和的文件名的原因之一。如果您想包括一些原始逻辑来防止这种情况,请参考原始的file_path