我们有许多网站正在更新,添加和删除。我对Stormcrawler如何处理以前带有“ FETCHED” URL的网站感到好奇,当下一次SC到达该URL时,它已被删除并生成重定向或404。页面的旧版本,在“索引”索引中?
我知道“状态”索引中的URL可能会更改为“重定向”或“错误”,但是内容本身如何?它被删除了吗?剩下了吗我试图弄清楚SC在这里的反应,以及是否必须清理“索引”索引中的这些孤立文档。
如果不存在该内容,我希望SC删除它,但我想请确保。
答案 0 :(得分:0)
正如您所指出的那样,缺少的URL将具有FETCH_ERROR状态,重试多次(参数 max.fetch.errors -默认值为3)后,该状态将变为ERROR状态。
如果将DeletionBolt连接到状态更新程序,则内容将被删除,请参见example topology。