如何在hadoop中创建一个nutch工作

时间:2014-04-16 08:00:43

标签: hadoop nutch

hadoop jar apache-nutch-1.6.job org.apache.nutch.crawl.Crawl firstSite / urls -dir urls -depth 1 -topN 5

Exception in thread "main" java.io.IOException: Error opening job jar: apache-nutch-1.6.job
        at org.apache.hadoop.util.RunJar.main(RunJar.java:90)
Caused by: java.io.FileNotFoundException: apache-nutch-1.6.job (No such file or directory)
        at java.util.zip.ZipFile.open(Native Method)
        at java.util.zip.ZipFile.<init>(ZipFile.java:215)
        at java.util.zip.ZipFile.<init>(ZipFile.java:145)
        at java.util.jar.JarFile.<init>(JarFile.java:153)
        at java.util.jar.JarFile.<init>(JarFile.java:90)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:88)

1 个答案:

答案 0 :(得分:2)

直接的答案是您的apache-nutch-1.6.job在当前目录中丢失或不存在。

Apache nutch .job文件(例如apache-nutch-1.9.job)是在运行时/ deploy /中编译的,当你编译nutch时(通过&#39; ant&#39;)注意你需要apache的源代码分发-nutch,而不是二进制版本,用于创建此文件。

.job文件实际上是一个JAR文件。它比apache-nutch-1.9.jar大得多,因为它包含所有依赖项(以及conf /中的文件),因此它包含运行Hadoop作业所需的所有内容。