标签: java apache web-crawler nutch information-retrieval
在运行注入器作业之前,我需要使用postgre sql数据库而不是txt文件作为种子URL。我可以通过使用插件系统来解决这个问题吗?如果我可以,我应该使用哪个扩展点或者我应该定义一个custpm扩展点?
答案 0 :(得分:0)
这样做没有延伸点。将Postgres中的URL导出到文本文件中或重写注入器以便它可以从中读取 - 这将更复杂。
如果您使用的是Nutch 2.x,GORA有一个可以与Postgres配合使用的SQL连接器。