Stormcrawler:注入新URL进行爬网而无需重新启动拓扑

时间:2018-09-12 18:43:27

标签: apache web-crawler apache-storm stormcrawler

有什么方法可以注入新的URL进行爬网,而无需从命令行停止拓扑并进行编辑 适当的文件?我想用Elasticsearch作为索引器

1 个答案:

答案 0 :(得分:1)

这取决于您用作存储URL状态的后端的内容。如果这些URL存储在 status 索引中的Elasticsearch中,则无需重新启动爬网拓扑。您可以在本地模式下单独使用注入器拓扑,以将新的URL注入状态索引。

SOLR或SQL模块也是如此,但MemorySpout + MemoryStatusUpdater却不存在,因为它存在于JVM中并且没有其他地方。

您使用哪个喷口?