从压缩文件中获取所有未压缩的字节

时间:2014-05-21 13:56:43

标签: c# deflatestream

我创建了一个从压缩文件中返回所有未压缩字节的方法。

    public static byte[] GetAllBytesFromCompressedFile(string fullPath)
    {
        const int blockSize = 10000;
        byte[] block = new byte[blockSize];
        List<byte> allBytes = new List<byte>(blockSize);

        int counter = 0;
        using (FileStream file = new FileStream(fullPath, FileMode.Open))
        {
            using (DeflateStream compress = new DeflateStream(file, CompressionMode.Decompress))
            {
                int bytesRead = 0;
                do
                {
                    bytesRead = compress.Read(block, 0, blockSize);
                    counter += bytesRead;
                    allBytes.AddRange(block);
                } while (bytesRead == blockSize);
            }
        }

        return allBytes.GetRange(0, counter).ToArray();
    }

它工作正常,但它可能在循环中被称为数百万次。大多数文件都很小,但有些文件可能高达100Mb,而我并不想为所有小文件预分配100Mb。所以我有几个问题:

  1. 首先,框架中是否已有这样的方法? 或者更好的方法呢?
  2. 有没有办法获得压缩文件的未压缩大小? (然后我不必在循环中获取块并且可以调用Read一次)
  3. 我已使用List<byte>因此我不必手动重新分配一个字节 阵列。是否有更有效的附加字节的方法?

  4. 我会把我的新代码放在这里,即使它对大多数人来说可能不是一个难题。但也许有人会发现其他可以改进的东西,比如明确设置缓冲区大小(?)

        public static byte[] GetAllBytesFromCompressedFile(string fullPath)
        {
            using (MemoryStream allBytes = new MemoryStream())
            {
                using (FileStream file = new FileStream(fullPath, FileMode.Open))
                {
                    using (DeflateStream compress = new DeflateStream(file, CompressionMode.Decompress))
                    {
                        compress.CopyTo(allBytes);
                    }
                }
    
                return allBytes.ToArray();
            }
        }
    

1 个答案:

答案 0 :(得分:4)

  

首先,框架中是否已存在这样的方法?或者更好的方法呢?

使用MemoryStream作为缓冲区,并使用Stream.Copy将数据复制到一行。

  

有没有办法获得压缩文件的未压缩大小?

不,deflate是一种流媒体格式。您可以猜测一些值,因为未压缩的数据可能会比压缩的输入大。可能浪费时间做这件事。

  

我已经使用了List,因此我不必手动重新分配字节数组。是否有更有效的方法来附加字节?

这非常低效。 List类将枚举您传入的字节数组并逐个添加字节。在大文件上疯狂烧CPU。使用MemoryStream。它使用memcpy来执行其复制操作。

此外,您有一个错误:您没有使用Read的返回值来确定读取了多少字节。您总是附加一个完整的缓冲区。这消失了建议的算法。