我正在尝试使用尖叫的青蛙蜘蛛工具抓取一个大型网站(大约1.5 mio网址)。一切开始时都运转良好,运行速度约为30页/秒(使用20个线程),但是在大约300k至400k的已爬网页面之后,它逐渐降低到2页/秒的爬网速度。
我的第一个想法是,我导致服务器速度降低,但是重新启动爬网会使爬网程序再次快速运行。
我在数据库存储模式下尝试了2到12 GB分配内存的多种配置。我在几个用户代理(screaming-frog,google-bot,firefox浏览器等)和标头选项之间进行了更改。
此外,增加或减少线程也不会对总爬网速度产生任何影响。每个页面的响应时间将相应地调整为总计2页/秒,这意味着我使用的线程越多,每个响应的响应就越慢。
对于此事的任何见解,我将不胜感激。