Question

当尝试在Scrapy中运行蜘蛛时，在使用其他参数运行之前，我收到此错误消息：

crawl: error: running 'scrapy crawl' with more than one spider is no longer supported

我将此解释为在某种意义上仍在运行的第一次抓取。我正在寻找一些终止所有正在运行的Scrapy进程的方法，以便通过新的爬网开始清理。

Answer 1

我在测试

时使用递增的数字来打破循环

 def parse(self, response):
     i = 0
     for sel in response.xpath('something'):
         if i > 2:
             break
         #something
         i += 1
         #something

Answer 2

我希望你以错误的方式使用多个命令行参数。只需scrapy crawl <spidername>即可。如果您尝试使用多个命令行参数，则可能会遗漏任何说明符。

对于终止所有正在运行的Scrapy进程，在Linux OS中，您可以通过在Linux终端中使用以下命令来查找并终止所有Scrapy进程

pkill scrapy

请使用Windows PsKill用于Windows操作系统。

手动终止Scrapy爬网

2 个答案: