我正在尝试使用crawler4j来抓取网站。我能够按照crawler4j网站上的说明操作。完成后,它会创建一个包含两个不同的.lck文件,一个.jdb文件和一个.info.0文件的文件夹。
我尝试使用我在this中提供的代码读取文件中的文件但是它仍然失败。我之前使用过相同的函数来读取文本文件,所以我知道代码可以工作。
我也是found几个月前提出同样问题的其他人。他们从来没有得到答案。
为什么我不能使用我的代码打开并将这些.lck文件读取到内存中?
答案 0 :(得分:1)
Crawler4j使用BerkeleyDB来存储抓取信息。请参阅此处的来源。
从命令行,您可以使用DB utils来访问数据。已经涵盖在SO here。
如果要访问Java代码中的数据,只需导入BerkeleyDB库(Maven指令)并遵循tutorial on how to open the DB。