Scrapy。需要停止抓取网页并删除对这些网页的现有请求

时间:2017-07-19 14:40:17

标签: python python-3.x web-scraping scrapy

我有蜘蛛,它正在报废某个特定公司的新闻网站。蜘蛛应该第一时间抓住所有新闻,接下来只有新闻。这里短流程

  • 我从DB获取公司名称并为其构建特定URL。
  • 请求所有网址
  • 选择新闻并制作yield
  • 在管道中对重复的新闻进行检查。

如果该公司的重复计数超过20(需要停止发出请求并解析),我需要停止废弃与公司有关的所有URL。但对于其他公司来说,蜘蛛应该废弃新闻

有可能吗?

我可以为每个公司运行蜘蛛并在条件后阻止蜘蛛,但我会有很多日志 感谢

0 个答案:

没有答案