scrapy-splash搜寻器启动速度快但速度慢(不受网站限制)

时间:2019-07-31 21:25:30

标签: scrapy scrapy-splash splash-js-render

我有一个使用scrapy浏览器通过scrapy-splash python包用scrapy编写的爬虫。我正在使用水族馆python软件包来平衡并行的scrapy请求到初始docker集群的负载。

抓取工具使用一长串url作为start_urls列表。没有通过hrefs或分页在页面之间进行“爬网”。

我正在运行六个启动器,每个启动器有5个插槽,作为负载平衡的浏览器集群。在六个并发请求下,我抓狂了。

开发机是一款Macbook pro,具有双核2.4Ghz CPU和16Gb RAM。

当蜘蛛启动时,水族馆标准输出显示快速的请求/响应,板载风扇旋转,并且系统以90%的速度运行,有10%的空闲,因此我不会超载系统资源。内存/交换操作也没有耗尽。

这时,我的速度很慢,只有30页/分钟。几分钟后,风扇停止运转,系统资源显着空闲(> 60%空闲),并且抓取的日志显示每个请求的超时时间均为503。

当我查看水族馆集群的标准输出时,正在处理请求,尽管与首次调用蜘蛛时相比,它的处理速度非常慢。

如果我进入localhost:9050,则在大约10秒钟后便获得启动页面,因此负载均衡器/启动是在线的。

如果我停止蜘蛛并重新启动它,它会正常启动,因此这似乎不是目标站点的限制,因为蜘蛛重新启动也会受到限制,但不是。

我感谢社区可以提供的任何见解。

谢谢。

0 个答案:

没有答案
相关问题