我尝试在我的服务器上部署hadoop然后使用this tutorial构建nutch1.5.1以在hadoop上运行nutch。我在日志文件中没有收到任何错误消息,但是crawlDB无法更新任何URL,因此crawlDB始终具有init URL。
在我的开发环境中,我运行org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3,它运行正常。
在我的服务器端,我运行类似的脚本:
./runtime/deploy/bin/nutch crawl urls -dir crawl -depth 3 -topN 5
我在HDFS中复制的urls文件。
我需要配置一些东西吗?