发生Fetch_Error时自动删除Fetched记录

时间:2019-01-16 21:22:55

标签: web-crawler stormcrawler

在Storm Crawler 1.13上工作,成功在网站上运行了搜寻器,并且其中一个页面已在该网站上被删除,然后根据 crawler-conf 再次访问状态索引,更新为< em> FETCH_ERROR 表示缺少的网址,当我签入主索引时,该网址仍然存在记录。每当出现 FETCH_ERROR 时,如何自动删除该记录。

1 个答案:

答案 0 :(得分:1)

在多次连续尝试(由 fetch.error.count 设置)后,FETCH_ERROR状态被转换为ERROR。完成后,将在deletion stream by the AbstractStatusUpdaterBolt上发送一个元组,并且如果您已连接DeletionBolt,则将从Elasticsearch的内容索引中删除该URL。它将保留在状态索引中,并且将根据错误的调度重新访问或不重新访问。