Scrapy spider_idle信号 - 需要使用解析项回调添加请求

时间:2017-08-31 12:27:21

标签: scrapy scrapy-spider scrapy-signal

在我的Scrapy蜘蛛中,我覆盖了start_requests()方法,以便从数据库中检索一些额外的URL,这些URL表示爬网中可能遗漏的项目(孤立项目)。这应该在爬网过程结束时发生。像(伪代码):

def start_requests(self):
    for url in self.start_urls:
        yield Request(url, dont_filter=True)

    # attempt to crawl orphaned items
    db = MySQLdb.connect(host=self.settings['AWS_RDS_HOST'],
                         port=self.settings['AWS_RDS_PORT'],
                         user=self.settings['AWS_RDS_USER'],
                         passwd=self.settings['AWS_RDS_PASSWD'],
                         db=self.settings['AWS_RDS_DB'],
                         cursorclass=MySQLdb.cursors.DictCursor,
                         use_unicode=True,
                         charset="utf8",)
    c=db.cursor()

    c.execute("""SELECT p.url FROM products p LEFT JOIN product_data pd ON p.id = pd.product_id AND pd.scrape_date = CURDATE() WHERE p.website_id = %s AND pd.id IS NULL""", (self.website_id,))

    while True:
        url = c.fetchone()
        if url is None:
            break
        # record orphaned product
        self.crawler.stats.inc_value('orphaned_count')
        yield Request(url['url'], callback=self.parse_item)
    db.close()

不幸的是,似乎爬虫在其余爬网期间将这些孤立的项目排队 - 因此,实际上,太多被视为孤立(因为爬虫在正常爬网中尚未检索到这些项目,执行数据库查询)。

我需要在爬网结束时发生这个孤立的进程 - 所以我相信我需要使用spider_idle信号。

但是,我的理解是我不能简单地在我的蜘蛛空闲方法中产生请求 - 而是我可以使用self.crawler.engine.crawl

我需要通过我的蜘蛛parse_item()方法处理请求(以及我配置的中间件,扩展和管道要遵守)。我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:1)

连接到idle signal的空闲方法(假设空闲方法称为idle_method)应该接收spider作为参数,所以你可以这样做:

def idle_method(self, spider):
    self.crawler.engine.crawl(Request(url=myurl, callback=spider.parse_item), spider)