应用错误收集

发生Fetch_Error时自动删除Fetched记录

时间：2019-01-16 21:22:55

标签： web-crawler stormcrawler

在Storm Crawler 1.13上工作，成功在网站上运行了搜寻器，并且其中一个页面已在该网站上被删除，然后根据 crawler-conf 再次访问状态索引，更新为< em> FETCH_ERROR 表示缺少的网址，当我签入主索引时，该网址仍然存在记录。每当出现 FETCH_ERROR 时，如何自动删除该记录。

1 个答案:

答案 0 :(得分：1)

在多次连续尝试（由 fetch.error.count 设置）后，FETCH_ERROR状态被转换为ERROR。完成后，将在deletion stream by the AbstractStatusUpdaterBolt上发送一个元组，并且如果您已连接DeletionBolt，则将从Elasticsearch的内容索引中删除该URL。它将保留在状态索引中，并且将根据错误的调度重新访问或不重新访问。

使用动画删除单元格时出错
删除应用程序请求时会发生错误
删除记录时的HTTP代码
异步记录不会自动获取
发生异常时自动处理SqlTransaction
Kafka - 忽略提取的记录
发生错误时自动重新加载闪亮的应用程序
删除记录时刷新页面
删除记录时，“子查询返回的值大于1”，如果我更改获取的数字，则不是这样
发生Fetch_Error时自动删除Fetched记录

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？