读取gz文件并跟踪文件中的位置

时间:2011-03-06 12:53:48

标签: java io

所以,情况如下:

我必须阅读大的.gz档案(GB)以及它们的“索引”,以便稍后能够使用随机访问检索特定的部分。 换句话说,我希望逐行读取存档,并能够获取文件中任何此类行的特定位置。 (这样我可以根据要求直接跳到这些特定的位置)。 (PS:......它是UTF-8所以我们不能假设1个字节== 1个字符。)

所以,基本上,我只需要一个BufferedReader来跟踪它在文件中的位置。但是,这似乎并不存在。

有什么可用的或者我必须自己滚动吗?

其他一些评论:

  • 我不能直接使用BufferedReader,因为文件位置对应到目前为止已缓冲的内容。换句话说,是内部缓冲区大小的倍数而不是行位置。
  • 出于性能原因,我无法直接使用InputStreamReader。无缓冲可能会减慢速度,顺便说一句,缺乏方便的方法来读取行。
  • 我不能使用RandomAccessFile,因为1.它是压缩的,而且2. RandomAccessFile使用“modified”UTF-8

我想最好的是使用一种缓冲读取器来跟踪文件位置和缓冲区偏移......但这听起来非常麻烦。但也许我错过了什么。也许已经存在一些事情要做,一行一行地读取文件并跟踪位置(即使是压缩的)。

感谢您提示,

阿诺

3 个答案:

答案 0 :(得分:4)

我认为jzran可能正是您所寻找的:

  

这是一个基于Java的Java库   来自zlib的zran.c样本。

     

您可以预处理大型gzip   存档,产生一个可以的“索引”   用于随机读取访问。

     

您可以在索引大小和。之间取得平衡   访问速度。

答案 1 :(得分:0)

您要找的是mark()markSupported()skip()

此方法在InputStream和Reader中都声明,因此欢迎您使用它们。

答案 2 :(得分:0)

GZIP压缩不支持搜索。构建压缩表需要以前的数据块......