如何使用Postgres设置风暴爬虫?

时间:2017-05-06 20:02:59

标签: postgresql web-crawler stormcrawler

我尝试使用postgres sql数据库设置stormcrawler作为后端。但是没有关于能够启动风暴爬虫的表格的文档。

我需要哪些表格以及它们具有哪些列?或者有没有办法自动创建所需的表? 另外如何在此模式下启动爬虫?因为我无法像示例爬虫拓扑一样发送种子网址。

1 个答案:

答案 0 :(得分:0)

tableCreationScript。对于URL的注入,您可以使用插入将其自己添加到表中,如此tutorial所示,或者重新使用elasticsearch模块中的注入拓扑,并从mysql模块中指定statusupdaterbolt。另一种方法是简单地将MemorySpout添加到SQLSpout旁边的拓扑中。