在scrapy管道中访问蜘蛛属性好吗?

时间:2019-07-05 06:08:24

标签: scrapy scrapy-pipeline

scrapy pipeline doc中,函数'process_item'的参数之一是蜘蛛

process_item(自我,物品,蜘蛛) 参数: 物品(物品对象或字典)–抓取的物品 蜘蛛(蜘蛛对象)–抓取物品的蜘蛛

我想将一种“项目”的列表发送到管道,但是经过Internet的多次挖掘后,每个人一次都产生或将项目返回管道。

SamplerSpider.py

 class SamplerSpider(scrapy.Spider):
        name = 'SamplerSpider'
        allowed_domains = ['xxx.com']
        start_urls = (CONSTANTS.URL)
        result = []

pipeline.py

class SamplerSpiderPipeline(object):
    def __init__(self):
       // do something here

    def process_item(self, item, spider):
        // do something with spider.result

这是一个好方法吗?如果不是,那为什么呢?

从文档中刮取信息将始终导致一项以上的结果。为什么刮板式管道设计为一次处理一次?

提前谢谢。

0 个答案:

没有答案