我可以在ElasticSearch的状态索引中看到_redirTo
标记。关于重定向的一些问题如下:
_redirTo
标记中只有一个重定向是立即重定向。如果有两个或三个重定向的URL,则无法获得重定向计数?答案 0 :(得分:1)
您可以设置种子深度限制,请参阅this answer,但不能直接查看连续重定向的数量。
正如您所注意到的,我们仅跟踪给定文档重定向到的URL。
如果你想控制redir的数量而不管种子的距离,一种方法是扩展或修改MaxDepth URL filter或处理协议实现中的redir,不利的一面是这不会检查目标网址是否已被提取。
UPDATE有一个名为'redirections.allowed'的配置元素,默认值为true。我刚刚修改了SimpleFetcherBolt,因为它没有得到妥善处理。