在hadoop 1.2.1上的nutch 1.9中缺少org.apache.nutch.crawl.Crawl

时间:2014-09-08 14:06:06

标签: hadoop nutch

我已经安装了完全分布式的Hadoop 1.2.1。我试图通过以下步骤整合nutch:

  1. 下载apache-nutch-1.9-src.zip
  2. 将值http.agent.name添加到nutch-site.xml
  3. 复制hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlmastersslaves到$ NUTCH_HOME / conf
  4. 使用ant runtime
  5. 进行编译
  6. 创建urls/seed.txt并加上hadoop dfs
  7. 编辑$ NUTCH_HOME / conf / regex-urlfilter.txt
  8. 使用命令测试爬网:

    bin/hadoop -jar nutch-1.9.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5

    并收到此错误:

      

    线程“main”中的异常java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl     在java.net.URLClassLoader $ 1.run(URLClassLoader.java:366)     在java.net.URLClassLoader $ 1.run(URLClassLoader.java:355)     at java.security.AccessController.doPrivileged(Native Method)     在java.net.URLClassLoader.findClass(URLClassLoader.java:354)     at java.lang.ClassLoader.loadClass(ClassLoader.java:425)     at java.lang.ClassLoader.loadClass(ClassLoader.java:358)     at java.lang.Class.forName0(Native Method)     在java.lang.Class.forName(Class.java:270)     在org.apache.hadoop.util.RunJar.main(RunJar.java:153)

    我尝试提取nutch-1.9.job,但我没有在org / apache / nutch / crawl中找到类Crawl。

    我需要配置一些东西吗?

1 个答案:

答案 0 :(得分:1)

在1.8版本中删除了Crawl.java。您可以使用爬网shell脚本进行所有爬网。

不推荐使用的类o.a.n.crawl.Crawler仍在代码库中https://issues.apache.org/jira/browse/NUTCH-1621