应用错误收集

时间：2018-08-23 21:36:31

标签： web-crawler apache-storm stormcrawler

因此，我正在尝试找出如何根据here的说明使用ES和Kibana安装和设置Storm / Stormcrawler。

我从来没有在本地计算机上安装过Storm，因为我以前曾与Nutch合作过，所以我从来没有在本地安装Hadoop ...以为与Storm可能是一样的（也许不是吗？）。

我现在想开始使用Stormcrawler而不是Nutch进行爬网。

看来，如果我只是下载一个发行版并将/ bin添加到我的PATH中，则我可以仅与远程集群通信。

似乎我需要根据this设置开发环境，以便使我能够随着时间的推移开发不同的拓扑，然后在准备部署新的拓扑时从本地计算机与远程集群进行对话拓扑。是吗？

所以看来我要做的就是在使用Maven生成Stormcrawler项目时将Storm添加为依赖项？

答案 0 :(得分：0)

您不需要安装Storm，因为可以在本地模式下运行拓扑，就像使用Nutch和Hadoop一样。只需根据原型生成拓扑，然后根据需要进行修改即可。添加ES组件并使用-local运行它。请参阅原型生成的自述文件。

稍后，您将安装Storm来从UI中受益，并且可能在多个节点上运行它，但是作为起点，在本地进行它是探索StormCrawler功能的好方法。