Scrapy爬虫获取部分数据

时间:2015-02-09 20:09:28

标签: python scrapy

我正在使用Scrapy抓取一些网站。

我需要每小时获取数据,因此我创建了一个crontab来启动我的抓取工具。我为每个爬虫和另一个启动每个“下标”的脚本制作了一个python脚本。

所以我有一个“ master ”脚本就像

"os.system("cd /home/.../directory1 ; python directory1Launch.py")"

和一些像

一样的“奴隶”脚本

os.system("scrapy crawl directory 1 -a start_url \"urls\" -o data.json")"

对于一定数量的抓取工具。

这很好用。然后我不得不在管道中添加一些功能。现在,几个爬虫(在同一个站点上工作)只抓取一小部分数据(2个项目而不是7个项目)。

事实是,如果我手动启动“主”脚本,就可以正常工作。

另一个爬虫就像以前一样工作。

也许这是一个时间问题(解析器需要花费太多时间?)但是当手动启动时也会发生...

有什么想法吗?

0 个答案:

没有答案