每种类型的拓扑都可以具有不同的状态索引吗?

时间:2019-09-05 17:12:47

标签: apache-storm stormcrawler

我正在爬网大约20个域,并最终扩展到300个域。每个域都有自己的解析器配置,以单独的拓扑提交。

因此,当使用单个状态索引时,所有拓扑似乎都是随机选择URL的,而不是特定于特定域的。

因此,每个拓扑都有单独的状态索引可以解决此问题吗?还有其他方法吗?

我也不能对所有域使用单一拓扑,因为爬网速率不同,爬网时间也不同,而且每个域都彼此不同。

1 个答案:

答案 0 :(得分:1)

每个爬网可以有一个索引,但是,如果要在每个域中运行1个拓扑,则只需向爬网的种子中添加1个任意元数据并确保它获得{{3 }}到外链。然后,您可以使用transferred,以使喷口仅获取该爬网的URL。例如,元数据密钥可能类似于 crawlID

  

我也不能对所有域使用单一拓扑,因为爬网速率不同,爬网时间也不同,而且每个域都彼此不同。

可能有办法解决。具有单一拓扑将使事情变得简单得多。