我对scrapy有点新意,我陷入了困境。我想在它关闭时重启蜘蛛。
我想在这里实现的是我从数据库中获取URL我写了一个方式,每当我发送“scrapy crawl xyz”请求时,start_request将获得一个URL [next URL]与之前来自数据库的请求中传递的内容不同。
问题是如果数据库中有四个URL我需要运行“scrapy crawl xyz”4次但是我想避免这种情况而且我试图在当前“spider_closed”被调用时触发“scrapy crawl xyz”在蜘蛛的尽头。请帮忙
答案 0 :(得分:0)
如果要在一个脚本中抓取多个蜘蛛 - 您可能希望从脚本运行蜘蛛。见official docummenation on how to do that
要扩展文档中提供的示例,您应该看起来像:
Invoke(New MethodInvoker(Sub() Sources_CountTemp += 1))
答案 1 :(得分:0)
大家好我发现问题了。我想同时运行相同的scrapy命令。所以我所做的是在linus中创建我自己的命令,然后将我的scrapy爬行xyz放入循环中并且它有效。
for seq 1 3
做
scrapy crawl taleo
完成