是否可以直接从数据库或服务等获取 Nutch 的URL。我对数据从数据库或服务中获取并写入seed.txt的方式不感兴趣
答案 0 :(得分:1)
没有。这不能使用默认的nutch代码库直接完成。您需要修改Injector.java才能实现这一目标。
修改强>
尝试使用DBInputFormat:InputFormat从SQL表中读取输入数据。您需要在此处修改Inject代码(下面的代码段中的第3行):
JobConf sortJob = new NutchJob(getConf());
sortJob.setJobName("inject " + urlDir);
FileInputFormat.addInputPath(sortJob, urlDir);
sortJob.setMapperClass(InjectMapper.class);