以本地模式运行StormCrawler还是安装Apache Storm?

时间:2018-08-23 21:36:31

标签: web-crawler apache-storm stormcrawler

因此,我正在尝试找出如何根据here的说明使用ES和Kibana安装和设置Storm / Stormcrawler。

我从来没有在本地计算机上安装过Storm,因为我以前曾与Nutch合作过,所以我从来没有在本地安装Hadoop ...以为与Storm可能是一样的(也许不是吗?)。

我现在想开始使用Stormcrawler而不是Nutch进行爬网。

看来,如果我只是下载一个发行版并将/ bin添加到我的PATH中,则我可以与远程集群通信。

似乎我需要根据this设置开发环境,以便使我能够随着时间的推移开发不同的拓扑,然后在准备部署新的拓扑时从本地计算机与远程集群进行对话拓扑。是吗?

所以看来我要做的就是在使用Maven生成Stormcrawler项目时将Storm添加为依赖项?

1 个答案:

答案 0 :(得分:0)

请参见Getting Started pagetutorials on Youtube

您不需要安装Storm,因为可以在本地模式下运行拓扑,就像使用Nutch和Hadoop一样。只需根据原型生成拓扑,然后根据需要进行修改即可。添加ES组件并使用-local运行它。请参阅原型生成的自述文件。

稍后,您将安装Storm来从UI中受益,并且可能在多个节点上运行它,但是作为起点,在本地进行它是探索StormCrawler功能的好方法。