废料:废料嵌套网址使用scrapy

时间:2017-02-15 11:03:25

标签: python web-scraping scrapy

我想废弃

  

https://www.grohe.com/in/7780/bathroom/bathroom-faucets/essence/页。

每当它给我语法错误时,我尝试了不同的方式。我不太了解python和scrapy 任何人都可以帮助我。

我的要求是

在页面背景图片的标题部分,有一些描述和2个与产品相关的图像

产品范围中,没有任何图片。我想了解所有图片并废弃不相关的产品详情

就像这样

enter image description here

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "plumber"
    start_urls = [
        'https://www.grohe.com/in/7780/bathroom/bathroom-faucets/essence/',
    ]

def parse(self, response):
    for divs in response.css('div#product-variants div.viewport div.workspace div.float-box'):
        yield {
            #response.css('div#product-variants a::attr(href)').extract()
            'producturl': divs.css('a::attr(href)').extract(),
            'imageurl': divs.css('a img::attr(src)').extract(),
            'description' : divs.css('a div.text::text').extract() + divs.css('a span.nowrap::text').extract(),
             next_page = producturl
             next_page = response.urljoin(next_page)
             yield scrapy.Request(next_page, callback=self.parse)
        }

1 个答案:

答案 0 :(得分:2)

你应该从你的物品中取出next_page产量 一般情况下,您可以迭代产品,加载并在请求的mergeMap()参数中进行加载,如下所示:

meta