风暴搜寻器中的存储区编号有什么用途?

时间:2018-09-17 13:05:08

标签: web-crawler apache-storm stormcrawler

在使用分区“主机”搜寻多个网站时,分区密钥也称为存储桶是基于主机生成的。 并且为每个喷口实例提供了一个桶来获取URL。如果我仅爬网一个网站会怎样? 在这种情况下,我只有一个存储桶,这意味着只有一个喷口实例可以访问我的存储桶? 并且如果要爬网许多网站(如果一个存储桶中的所有网址都被爬网了),则spout实例是否将移至下一个存储桶?

1 个答案:

答案 0 :(得分:0)

如果您对一个站点进行爬网,那么可以,只有一个喷口将处于活动状态。 如果您对许多站点进行爬网,它们将分布在多个存储桶中,并且相等数量的spout实例将处于活动状态。如果没有更多的URL可获取分片,则相应的出口将不会沿拓扑发送URL。其他spout实例将继续处理URL,直到没有其他可做的为止。