安排scrapy蜘蛛每N分钟运行一次

时间:2017-07-12 08:55:50

标签: python scrapy

我需要帮助来安排我的蜘蛛每N分钟运行一次。早期我看到大多数人为此目的使用了reactor.callLaterreactor.run,但似乎现在没有可能使用这些功能。我该如何安排程序化?

def run_crawl():
    """
    Run a spider within Twisted. Once it completes,
    wait 5 seconds and run another spider.
    """
    runner = CrawlerRunner(get_project_settings())
    runner.crawl(SpiderA)
    runner.crawl(SpiderB)
    deferred = runner.join()
    deferred.addCallback(reactor.callLater, 5, run_crawl)
    return deferred

run_crawl()
reactor.run()

此时我的爬虫程序由Windows任务计划程序安排,但我想以编程方式安排它。

1 个答案:

答案 0 :(得分:-1)

您可以尝试使用名为schedule的外部模块:
schedule github link

告诉我它是否符合您的需求。