什么是.lck文件,为什么我不能用缓冲读卡器读取它?

时间:2013-03-27 13:32:39

标签: java parsing file-io web-crawler crawler4j

我正在尝试使用crawler4j来抓取网站。我能够按照crawler4j网站上的说明操作。完成后,它会创建一个包含两个不同的.lck文件,一个.jdb文件和一个.info.0文件的文件夹。

我尝试使用我在this中提供的代码读取文件中的文件但是它仍然失败。我之前使用过相同的函数来读取文本文件,所以我知道代码可以工作。

我也是found几个月前提出同样问题的其他人。他们从来没有得到答案。

为什么我不能使用我的代码打开并将这些.lck文件读取到内存中?

1 个答案:

答案 0 :(得分:1)

Crawler4j使用BerkeleyDB来存储抓取信息。请参阅此处的来源。

从命令行,您可以使用DB utils来访问数据。已经涵盖在SO here

如果要访问Java代码中的数据,只需导入BerkeleyDB库(Maven指令)并遵循tutorial on how to open the DB