我正在尝试以一种可以通过一个包含其所有依赖项的JAR文件访问其所有功能的方式运行Nutch爬虫。
例如,
java -jar nutch-all-1.2.jar -crawl <other params>
在稍后阶段,用hadoop调用它。
目前,正在做一个
java -jar nutch-1.2.jar
在nutch目录中存在的JAR文件中导致错误
Failed to load Main-Class manifest attribute from
nutch-1.2.jar
我相信这是因为这个特定的JAR不包含清单XML文件或其他相关的JAR。为了这个目的,你会建议将nutch构建到一个JAR中的最佳方法是什么?
谢谢!
答案 0 :(得分:1)
我很清楚地看到,以简单的方式从命令行运行Nutch,可以使用nutch.job文件。语法是,
hadoop jar nutch-1.0.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1