我已经安装了完全分布式的Hadoop 1.2.1。我试图通过以下步骤整合nutch:
hadoop-env.sh
,core-site.xml
,hdfs-site.xml
,mapred-site.xml
,
masters
,slaves
到$ NUTCH_HOME / conf ant runtime
urls/seed.txt
并加上hadoop dfs 使用命令测试爬网:
bin/hadoop -jar nutch-1.9.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5
并收到此错误:
线程“main”中的异常java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl 在java.net.URLClassLoader $ 1.run(URLClassLoader.java:366) 在java.net.URLClassLoader $ 1.run(URLClassLoader.java:355) at java.security.AccessController.doPrivileged(Native Method) 在java.net.URLClassLoader.findClass(URLClassLoader.java:354) at java.lang.ClassLoader.loadClass(ClassLoader.java:425) at java.lang.ClassLoader.loadClass(ClassLoader.java:358) at java.lang.Class.forName0(Native Method) 在java.lang.Class.forName(Class.java:270) 在org.apache.hadoop.util.RunJar.main(RunJar.java:153)
我尝试提取nutch-1.9.job,但我没有在org / apache / nutch / crawl中找到类Crawl。
我需要配置一些东西吗?
答案 0 :(得分:1)
在1.8版本中删除了Crawl.java。您可以使用爬网shell脚本进行所有爬网。
不推荐使用的类o.a.n.crawl.Crawler仍在代码库中https://issues.apache.org/jira/browse/NUTCH-1621