Scrapy - 删除重复项并将数据输出为单个列表?

时间:2017-07-11 23:41:08

标签: python scrapy scrapy-spider

我使用以下代码抓取网页上的多个链接,并从每个相应的链接中获取数据列表:

import scrapy

class testSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://www.website.com']

    def parse(self, response):
        urls = response.css('div.subject_wrapper > a::attr(href)').extract()
        for url in urls:
            url = response.urljoin(url)
            yield scrapy.Request(url=url, callback=self.getData)

    def getData(self, response):
        data = {'data': response.css('strong.data::text').extract()}
        yield data

它运行正常,但是当它返回每个链接的数据列表时,当我输出到CSV时,它看起来如下所示:

"dalegribel,Chad,Ninoovcov,dalegribel,Gotenks,sillydog22"

"kaylachic,jmargerum,kaylachic"

"Kempodancer,doctordbrew,Gotenks,dalegribel"

"Gotenks,dalegribel,jmargerum"

...

是否有任何简单/有效的方法将数据作为单个行列表输出而没有任何重复(相同的数据可以出现在多个页面上),类似于以下内容?

dalegribel
Chad
Ninoovcov
Gotenks
...

我尝试过使用数组然后循环遍历每个元素以获得输出,但是得到一个错误,说yield只支持' Request,BaseItem,dict或None'。此外,由于我将在大约10k个条目上运行此操作,因此我不确定将数据存储在数组中是否会减慢过多的速度。感谢。

1 个答案:

答案 0 :(得分:1)

不确定是否可以使用Scrapy内置方法以某种方式完成,但python方式是创建一组唯一元素,检查重复项,并且仅使用唯一元素:

class testSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://www.website.com']
    unique_data = set()

    def parse(self, response):
        urls = response.css('div.subject_wrapper > a::attr(href)').extract()
        for url in urls:
            url = response.urljoin(url)
            yield scrapy.Request(url=url, callback=self.getData)

    def getData(self, response):
        data_list = response.css('strong.data::text').extract()
        for elem in data_list:
            if elem and (elem not in self.unique_data):
                self.unique_data.add(elem)
                yield {'data': elem}