在Nutch中,如何使用我的数据库存储所有种子URL的列表?

时间:2016-12-05 18:19:40

标签: nutch

现在,我正在使用带有域名列表的seed.txt文件进行抓取,但有没有办法在数据库中设置此列表,我是用Nutch设置的?

与此相关:我可以列出多少个域名?

1 个答案:

答案 0 :(得分:1)

开箱即用Nutch不提供此功能,但您可以自定义the Injector.java file以实现所需的行为,可能使用类似DBInputFormat的东西从数据库中读取。

简而言之,您可以自定义注入步骤以从您喜欢的任何数据源(SQL,NoSQL等)收集信息。