具有容错机制的Scrapy自动计划的抓取数据

时间:2019-07-04 00:00:54

标签: web-scraping scrapy web-crawler fault-tolerance

我正在使用scrapy从某些网站上抓取一些信息,并且我计划将其每24小时运行一次。

数据正在存储在Dynamo DB中。我有一个Spring Boot应用程序向AWS发送请求以获取其抓取的数据,并将其提供给我的本机前端。

现在的问题是,如果网站略有更改,我恐怕蜘蛛会抓取一些错误。我正在寻找一种机制,当蜘蛛在抓取网站时遇到问题或停止抓取并将其放入数据库并将所有内容弄乱时,它会通知我(例如向我发送电子邮件)。

由于我仍在学习网络抓取,因此我不确定我的想法是否合理,或者是否已经有成熟的解决方案/机制来解决类似问题。

谢谢。

0 个答案:

没有答案