我使用scrapy-splash v3。我有4个scrapy和4个scrapy-splash共8个爬虫。他们每天一次,每次3小时开始。
01:00 PM > crawler-splash1
04:00 PM > crawler-scrapy1
07:00 PM > crawler-splash2
...
第一个抓取工具启动后约40小时(1.5天),服务器崩溃或启动失败,如
http://172.18.0.10:8050/render.html> (失败1次):连接被另一方拒绝:111:连接被拒绝。
当我重新启动服务器时,连接已修复,并且它会再次开始正常工作2天。
可能出现什么问题?服务器属性是低还是其他问题?我不知道。我试图获取日志,但它是空的,日志中没有错误。但我必须每天重启服务器。
我的vp服务器:2个vCore 2.4 GHz 8 GB RAM 40 GB SSD Linux
编辑 泊坞:
docker run -d --restart always --net pabedanetwork --ip 172.18.0.10 scrapinghub/splash -v3
履带
venv/bin/scrapy crawl crawler -a retailer=RetailerName