hadoop1.0.3& nutch1.5.1无法更新crawlDB

时间:2012-10-20 13:33:34

标签: hadoop nutch

我尝试在我的服务器上部署hadoop然后使用this tutorial构建nutch1.5.1以在hadoop上运行nutch。我在日志文件中没有收到任何错误消息,但是crawlDB无法更新任何URL,因此crawlDB始终具有init URL。

在我的开发环境中,我运行org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3,它运行正常。

在我的服务器端,我运行类似的脚本:

./runtime/deploy/bin/nutch crawl urls -dir crawl -depth 3 -topN 5

我在HDFS中复制的urls文件。

我需要配置一些东西吗?

0 个答案:

没有答案