如何在tomcat上部署Apache Nutch -1.6?

时间:2013-07-02 08:08:58

标签: tomcat nutch

我通过触发来自终端的命令使用nutch-1.6进行爬行。我通过互联网搜索,发现早期版本的nutch如0.9,1.0附带war文件,可以部署在tomcat服务器上,但我找不到任何在tomcat上部署nutch 1.6的文档。

我不是每次都从终端触发命令,而是希望通过在tomcat上部署nutch来自动化爬行系统,以便我可以通过网页发出命令。

1 个答案:

答案 0 :(得分:0)

Nutch 2.2.1具有基于REST的API来启动作业,从db(配置存储)检索数据,停止作业等,

  • 职位经理API
  • Db read API
  • 配置API

Nutch2 Tutorial wiki

Running Nutch in eclipse

启动Nutch 2.2.1

./bin/nutch nutchserver 9000

服务器成功启动后,我们可以使用休息请求访问资源

  • 获取详细配置
    http://localhost:9000/nutch/confs/default
  • 在服务器上创建新的抓取作业
    http://localhost:9000/nutch/jobs
    ContentType: application / json
    http方法类型: PUT
    有效载荷:

      {
        "crawl":"123",
        "type":"crawl",
        "conf":"default",
        "args":
            { "class":"org.apache.nutch.crawl.Crawler", 
              "seed":"http://www.somesite.com", 
               "seedDir":"runtime/local/url/url.txt", "depth":2 }
    
      }