Question

您好我正在使用Scrpayd安排我的蜘蛛。问题是我想跟踪到目前为止所安排的工作的所有历史信息。但如果scrapyd服务器重新启动，则所有信息都将被删除。

我的问题是有没有其他方法将这些值存储到像sql server这样的持久存储中？

还是有其他办法吗？

任何人都可以帮助我吗？

谢谢，

Answer 1

我相信蜘蛛中间件是完成这项工作的最佳选择。一旦蜘蛛完成其工作，您就可以在数据库中保存统计数据和其他所需信息。

这是草稿：

from scrapy import signals
import os

class UpdateStatsMiddleware(object):
    def __init__(self, crawler):
        self.crawler = crawler
        # register close_spider method as callback for the spider_closed signal
        crawler.signals.connect(self.close_spider, signals.spider_closed)

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def get_jobid(self):
        """Gets jobid through scrapyd's SCRAPY_JOB env variable"""
        return os.environ['SCRAPY_JOB']

    def close_spider(self, spider, reason):
        # do your magic here...
        spider.log('Finishing spider with reason: %s' % reason)
        stats = self.crawler.stats.get_stats()
        jobid = self.get_jobid()
        self.update_job_stats(jobid, stats)

    def update_job_stats(self, jobid, stats):
        # do your magic here...
        pass

http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html http://scrapy.readthedocs.org/en/latest/topics/signals.html

Scrapyd计划细节到数据库

1 个答案: