如果在Web服务器端删除了以前的“ FETCHED” URL,StormCrawler再次访问该URL,会发生什么情况?

时间:2019-05-28 14:15:13

标签: elasticsearch web-crawler stormcrawler

我们有许多网站正在更新,添加和删除。我对Stormcrawler如何处理以前带有“ FETCHED” URL的网站感到好奇,当下一次SC到达该URL时,它已被删除并生成重定向或404。页面的旧版本,在“索引”索引中?

我知道“状态”索引中的URL可能会更改为“重定向”或“错误”,但是内容本身如何?它被删除了吗?剩下了吗我试图弄清楚SC在这里的反应,以及是否必须清理“索引”索引中的这些孤立文档。

如果不存在该内容,我希望SC删除它,但我想请确保。

1 个答案:

答案 0 :(得分:0)

正如您所指出的那样,缺少的URL将具有FETCH_ERROR状态,重试多次(参数 max.fetch.errors -默认值为3)后,该状态将变为ERROR状态。

如果将DeletionBolt连接到状态更新程序,则内容将被删除,请参见example topology