Nutch Seed网址

时间:2012-04-13 14:41:56

标签: java nutch web-crawler

是否可以直接从数据库或服务等获取 Nutch 的URL。我对数据从数据库或服务中获取并写入seed.txt的方式不感兴趣

1 个答案:

答案 0 :(得分:1)

没有。这不能使用默认的nutch代码库直接完成。您需要修改Injector.java才能实现这一目标。

修改

尝试使用DBInputFormatInputFormat从SQL表中读取输入数据。您需要在此处修改Inject代码(下面的代码段中的第3行):

JobConf sortJob = new NutchJob(getConf());
sortJob.setJobName("inject " + urlDir);
FileInputFormat.addInputPath(sortJob, urlDir);
sortJob.setMapperClass(InjectMapper.class);