应用错误收集

时间：2013-03-27 13:32:39

标签： java parsing file-io web-crawler crawler4j

我正在尝试使用crawler4j来抓取网站。我能够按照crawler4j网站上的说明操作。完成后，它会创建一个包含两个不同的.lck文件，一个.jdb文件和一个.info.0文件的文件夹。

我尝试使用我在this中提供的代码读取文件中的文件但是它仍然失败。我之前使用过相同的函数来读取文本文件，所以我知道代码可以工作。

我也是found几个月前提出同样问题的其他人。他们从来没有得到答案。

为什么我不能使用我的代码打开并将这些.lck文件读取到内存中？

答案 0 :(得分：1)

Crawler4j使用BerkeleyDB来存储抓取信息。请参阅此处的来源。

从命令行，您可以使用DB utils来访问数据。已经涵盖在SO here。

如果要访问Java代码中的数据，只需导入BerkeleyDB库（Maven指令）并遵循tutorial on how to open the DB。