我正在尝试从Java内部使用Nutch(而不是作为命令行工具)。这就是我正在做的:
import org.apache.hadoop.conf.Configuration;
import org.apache.nutch.crawl.InjectorJob;
String[] args = {"/tmp/my-urls-dir"};
Configuration conf = new Configuration();
new InjectorJob(conf).run(args);
我得到:
java.lang.Exception: java.lang.IllegalArgumentException: plugin.folders is not defined
at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)
似乎没有找到nutch-default.xml
,这就是为什么没有加载插件的原因(我也很好奇它们的位置,因为我没有在nutch-2.3.1.jar
中看到它们)。我想念什么?我的依赖:
<dependency>
<groupId>org.apache.nutch</groupId>
<artifactId>nutch</artifactId>
<version>2.3.1</version>
</dependency>
如果您能带我一些在线教程,以了解如何将Nutch集成到Java应用程序中(而不是作为命令行工具),那将是很棒的事情。