在scrapy pipeline doc中,函数'process_item'的参数之一是蜘蛛
process_item(自我,物品,蜘蛛) 参数: 物品(物品对象或字典)–抓取的物品 蜘蛛(蜘蛛对象)–抓取物品的蜘蛛
我想将一种“项目”的列表发送到管道,但是经过Internet的多次挖掘后,每个人一次都产生或将项目返回管道。
SamplerSpider.py
class SamplerSpider(scrapy.Spider):
name = 'SamplerSpider'
allowed_domains = ['xxx.com']
start_urls = (CONSTANTS.URL)
result = []
pipeline.py
class SamplerSpiderPipeline(object):
def __init__(self):
// do something here
def process_item(self, item, spider):
// do something with spider.result
这是一个好方法吗?如果不是,那为什么呢?
从文档中刮取信息将始终导致一项以上的结果。为什么刮板式管道设计为一次处理一次?
提前谢谢。