如何在分布式环境中运行nutch服务器

时间:2016-09-29 04:56:27

标签: nutch

我已经使用bin / nutch startserver命令本地启动了在服务器模式下运行nutch的测试。现在我想知道我是否可以在hadoop集群(在分布式环境中)的服务器模式中启动nutch,并使用nutch REST api向服务器提交爬网请求? 请帮忙。

1 个答案:

答案 0 :(得分:1)

从进一步的研究中我得到了nutch服务器在分布式模式下工作。

步骤: -

  1. 假设在所有从属节点中配置hadoop。然后在所有节点中设置nutch。这有助于:http://wiki.apache.org/nutch/NutchHadoopTutorial
  2. 在您的名字节点cd $NUTCH_HOME/runtime/deploy
  3. bin/nutch startserver -port <port> -host <host> 注意:端口和主机是可选的。
  4. 然后你可以使用REST从nutch提交请求。您提交的请求将被第3步启动的nutch服务器接受。
  5. 快乐抓取:)