应用错误收集

Crawler4j与mongoDB

时间：2014-06-30 18:19:53

标签： mongodb crawler4j

我正在研究crawler4j。我发现它使用BerkeleyDB作为数据库。我正在使用mongoDB开发一个Grails应用程序，并想知道crawler4j在我的应用程序中的灵活性。我基本上想要将已爬网的信息存储在mongodb数据库中。是否可以以这样的方式配置crawler4j：它使用mongoDB作为默认数据存储而不是BerkeleyDB？任何的意见都将会有帮助。感谢

1 个答案:

答案 0 :(得分：3)

没有可配置的dao图层，但您可以对其进行操作。

有3个dao类。专柜课程保存总计＆＃39;预定＆＃39;和＆＃39;已处理＆＃39;页数（这仅用于统计）。 DocIDServer类包含用于解析新URL的url-id对。 Frontier类保存要爬网的页面的队列。只需保留方法逻辑和转换块。

crawler4j在不抓取整个网站的情况下抓取网址列表
Crawler4j - 获取异常java.lang.NoSuchMethodError
如何在crawler4j中获取网址为404或301
crawler4j使用类CrawlConfig编译错误 - 期望VariableDeclaratorId
crawler4j打印出极大的系统输出堆栈
Crawler4j缺少传出链接？
Crawler4j与mongoDB
在crawler4j中禁用RobotServer
Crawler4j可以从另一个类运行
crawler4j无法识别页面上的所有链接

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？