我正在研究crawler4j。我发现它使用BerkeleyDB作为数据库。我正在使用mongoDB开发一个Grails应用程序,并想知道crawler4j在我的应用程序中的灵活性。我基本上想要将已爬网的信息存储在mongodb数据库中。是否可以以这样的方式配置crawler4j:它使用mongoDB作为默认数据存储而不是BerkeleyDB?任何的意见都将会有帮助。感谢
答案 0 :(得分:3)
没有可配置的dao图层,但您可以对其进行操作。
有3个dao类。专柜课程保存总计'预定'和'已处理'页数(这仅用于统计)。 DocIDServer类包含用于解析新URL的url-id对。 Frontier类保存要爬网的页面的队列。只需保留方法逻辑和转换块。