我通过触发来自终端的命令使用nutch-1.6进行爬行。我通过互联网搜索,发现早期版本的nutch如0.9,1.0附带war文件,可以部署在tomcat服务器上,但我找不到任何在tomcat上部署nutch 1.6的文档。
我不是每次都从终端触发命令,而是希望通过在tomcat上部署nutch来自动化爬行系统,以便我可以通过网页发出命令。
答案 0 :(得分:0)
Nutch 2.2.1具有基于REST的API来启动作业,从db(配置存储)检索数据,停止作业等,
启动Nutch 2.2.1
./bin/nutch nutchserver 9000
服务器成功启动后,我们可以使用休息请求访问资源
http://localhost:9000/nutch/confs/default
在服务器上创建新的抓取作业
http://localhost:9000/nutch/jobs
ContentType: application / json
http方法类型: PUT
的有效载荷:强>
{
"crawl":"123",
"type":"crawl",
"conf":"default",
"args":
{ "class":"org.apache.nutch.crawl.Crawler",
"seed":"http://www.somesite.com",
"seedDir":"runtime/local/url/url.txt", "depth":2 }
}