StormCrawler中的重定向是否有限制?

时间:2016-12-20 07:44:19

标签: web-crawler apache-storm stormcrawler

我可以在ElasticSearch的状态索引中看到_redirTo标记。关于重定向的一些问题如下:

  1. 重定向有限制吗?所以它不应该以循环结束 重定向?
  2. 特定提取的网址的重定向数量是多少?我可以看到     _redirTo标记中只有一个重定向是立即重定向。如果有两个或三个重定向的URL,则无法获得重定向计数?

1 个答案:

答案 0 :(得分:1)

您可以设置种子深度限制,请参阅this answer,但不能直接查看连续重定向的数量。

正如您所注意到的,我们仅跟踪给定文档重定向到的URL。

如果你想控制redir的数量而不管种子的距离,一种方法是扩展或修改MaxDepth URL filter或处理协议实现中的redir,不利的一面是这不会检查目标网址是否已被提取。

UPDATE有一个名为'redirections.allowed'的配置元素,默认值为true。我刚刚修改了SimpleFetcherBolt,因为它没有得到妥善处理。