标签: nutch
现在,我正在使用带有域名列表的seed.txt文件进行抓取,但有没有办法在数据库中设置此列表,我是用Nutch设置的?
seed.txt
与此相关:我可以列出多少个域名?
答案 0 :(得分:1)
开箱即用Nutch不提供此功能,但您可以自定义the Injector.java file以实现所需的行为,可能使用类似DBInputFormat的东西从数据库中读取。
简而言之,您可以自定义注入步骤以从您喜欢的任何数据源(SQL,NoSQL等)收集信息。