我正在使用Scrapy抓取一些网站。
我需要每小时获取数据,因此我创建了一个crontab来启动我的抓取工具。我为每个爬虫和另一个启动每个“下标”的脚本制作了一个python脚本。
所以我有一个“ master ”脚本就像
"os.system("cd /home/.../directory1 ; python directory1Launch.py")"
和一些像
一样的“奴隶”脚本“os.system("scrapy crawl directory 1 -a start_url \"urls\" -o data.json")"
对于一定数量的抓取工具。
这很好用。然后我不得不在管道中添加一些功能。现在,几个爬虫(在同一个站点上工作)只抓取一小部分数据(2个项目而不是7个项目)。
事实是,如果我手动启动“主”脚本,就可以正常工作。
另一个爬虫就像以前一样工作。
也许这是一个时间问题(解析器需要花费太多时间?)但是当手动启动时也会发生...
有什么想法吗?