我有多个Scrapy蜘蛛,我需要每5分钟同时运行一次。问题是它们需要大约30秒到1分钟才能启动。
似乎他们都开始使用自己的扭曲引擎,因此需要花费很多时间。
我已经研究了同时运行多个蜘蛛的不同方法(参见Running Multiple spiders in scrapy for 1 website in parallel?),但是我需要为每个蜘蛛创建一个日志,并且每个蜘蛛都需要一个进程来与Airflow很好地集成。
我看了一下scrapyd,但它似乎没有为多个蜘蛛共享一个扭曲的引擎,这是正确的吗?
他们有不同的方式实现我的目标吗?