应用错误收集

我已经安装了完全分布式的Hadoop 1.2.1。我试图通过以下步骤整合nutch：

下载apache-nutch-1.9-src.zip
将值http.agent.name添加到nutch-site.xml
复制hadoop-env.sh，core-site.xml，hdfs-site.xml，mapred-site.xml， masters，slaves到$ NUTCH_HOME / conf
使用ant runtime
创建urls/seed.txt并加上hadoop dfs
编辑$ NUTCH_HOME / conf / regex-urlfilter.txt

使用命令测试爬网：

bin/hadoop -jar nutch-1.9.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5

并收到此错误：

线程“main”中的异常java.lang.ClassNotFoundException： org.apache.nutch.crawl.Crawl 在java.net.URLClassLoader $ 1.run（URLClassLoader.java:366）在java.net.URLClassLoader $ 1.run（URLClassLoader.java:355） at java.security.AccessController.doPrivileged（Native Method）在java.net.URLClassLoader.findClass（URLClassLoader.java:354） at java.lang.ClassLoader.loadClass（ClassLoader.java:425） at java.lang.ClassLoader.loadClass（ClassLoader.java:358） at java.lang.Class.forName0（Native Method）在java.lang.Class.forName（Class.java:270）在org.apache.hadoop.util.RunJar.main（RunJar.java:153）

我尝试提取nutch-1.9.job，但我没有在org / apache / nutch / crawl中找到类Crawl。

我需要配置一些东西吗？

在hadoop 1.2.1上的nutch 1.9中缺少org.apache.nutch.crawl.Crawl

1 个答案: