当我尝试在hadoop 1.03上运行nutch-1.5时出现以下错误。
hadoop jar nutch-1.5.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5
**Caused by: java.io.IOException: can't find class: org.apache.nutch.protocol.ProtocolStatus because org.apache.nutch.protocol.ProtocolStatus**
我在nutch-1.3上看到了错误报告https://issues.apache.org/jira/browse/NUTCH-1084,但似乎尚未解决。 任何帮助表示赞赏。
我遵循本教程:
http://wiki.apache.org/nutch/NutchHadoopTutorial
http://wiki.apache.org/nutch/NutchTutorial
http://wiki.apache.org/hadoop/HowToConfigure
修改
我遵循本教程http://www.rui-yang.com/develop/build-nutch-1-4-cluster-with-hadoop/,它对我有用。我不知道究竟是什么解决了这个问题。我在一个节点中运行hadoop。 我做了这个改变:
1.将hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,master,slave从hadoop / conf复制到nutch / conf并重建nutch
2.export CLASSPATH =:$ NUTCH_HOME / runtime / local / lib
我创建了以下教程http://dataspider.blogspot.com.es/2012/09/instalacion-de-hadoop.html
答案 0 :(得分:1)
如果你想使用hadoop 1.0.3,那么使用nutch1.5.1代替1.5
查看nutch1.5.1的发行说明 https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=10680&version=12321850
没有说NUTCH-1084是否在此版本中得到修复,但此版本中包含了以下补丁 https://issues.apache.org/jira/browse/NUTCH-1398