Question

我从网站上获取此代码：

import scrapy

class BrickSetSpider(scrapy.Spider):
    name = "brickset_spider"
    start_urls = ['http://brickset.com/sets/year-2016']

    def parse(self, response):
        SET_SELECTOR = '.set'
        for brickset in response.css(SET_SELECTOR):

            NAME_SELECTOR = 'h1 a ::text'
            yield {
                'name': brickset.css(NAME_SELECTOR).extract(),
            }

我使用代码来抓取数据。这是我运行代码时的示例结果：

名称是extract（）方法的结果。这是inspect元素（在chrome中）：

我想问一下获得名称结果的方法是10805：环游世界还是只环游世界。怎么做？

Answer 1

获得＆＃34; 10805：环游世界＆＃34;将您的收益率更改为：

 yield {
            'name': " ".join(brickset.css(NAME_SELECTOR).extract()),
        }

获得＆＃34;环游世界＆＃34;将您的收益率更改为：

yield {
            'name': brickset.css(NAME_SELECTOR).extract()[-1],
        }

在python scrapy中获取文本

1 个答案: