如何在生产环境中运行nutch

时间:2016-09-23 04:57:44

标签: nutch

我正在尝试使用nutch进行一些爬行循环,并希望设置分布式爬网环境。但我想知道如何在生产系统中为传入的爬网请求触发nutch。我读到了关于nutch REST api的内容。这是我真正的选择吗?或者我可以通过任何其他选项运行nutch作为连续运行的分布式服务器吗?

我首选的nutch版本是nutch 1.12。

1 个答案:

答案 0 :(得分:1)

正如sujen所说,有两种选择: -

  1. 如果要远程向nutch提交抓取请求,请使用REST API。 此处描述了实现此操作的步骤: -
  2. How to run nutch server on distributed environment

    1. 否则,您可以从runtime / deploy运行bin / crawl脚本,以使用hadoop启动对nutch分发的请求。