应用错误收集

Scrapy。需要停止抓取网页并删除对这些网页的现有请求

时间：2017-07-19 14:40:17

标签： python python-3.x web-scraping scrapy

我有蜘蛛，它正在报废某个特定公司的新闻网站。蜘蛛应该第一时间抓住所有新闻，接下来只有新闻。这里短流程

我从DB获取公司名称并为其构建特定URL。
请求所有网址
选择新闻并制作yield
在管道中对重复的新闻进行检查。

如果该公司的重复计数超过20（需要停止发出请求并解析），我需要停止废弃与公司有关的所有URL。但对于其他公司来说，蜘蛛应该废弃新闻

有可能吗？

我可以为每个公司运行蜘蛛并在条件后阻止蜘蛛，但我会有很多日志感谢

0 个答案:

没有答案