将大型二进制文件(5GB)读入C#中的字节数组?

时间:2017-05-16 08:24:21

标签: c# visual-studio-2008 c#-3.0

我有一个超过5 GB的录制文件(二进制文件),我必须读取该文件并过滤掉需要发送到服务器的数据。

问题是byte []数组支持直到2GB的文件数据。如果有人已经处理过这种情况,那就急需帮助。

using (FileStream str = File.OpenRead(textBox2.Text))
{
       int itemSectionStart = 0x00000000;
       BinaryReader breader = new BinaryReader(str);
       breader.BaseStream.Position = itemSectionStart;
       int length = (int)breader.BaseStream.Length;
       byte[] itemSection = breader.ReadBytes(length );  //first frame data
}

的问题:

1: Length is crossing the range of integer.
2: tried using long and unint but byte[] only supports integer

编辑。

我想尝试的另一种方法是尝试在帧缓冲区的基础上读取数据,假设我的帧缓冲区大小为24000。所以字节数组存储许多帧数据然后处理帧数据然后刷新字节数组并存储另外24000帧数据。直到二进制文件结束为止......

2 个答案:

答案 0 :(得分:0)

正如评论中所说,我认为你必须用流阅读你的文件。以下是如何做到这一点:

int nbRead = 0;
var step = 10000;
byte[] buffer = new byte[step];
do
{
    nbRead = breader.Read(buffer, 0, step);
    hugeArray.Add(buffer);

    foreach(var oneByte in hugeArray.SelectMany(part => part))
    {
        // Here you can read byte by byte this subpart
    }
}
while (nbRead > 0);

如果我很了解您的需求,您正在寻找一个特定的模式到您的文件?

我认为你可以通过逐字节查找模式的开头来实现。一旦找到它,就可以开始读取重要的字节了。如果整个重要数据大于2GB,如评论中所述,则必须将其分成几部分发送到您的服务器。

答案 1 :(得分:0)

看到你无法一次读取那么大的文件,所以你必须将文件分成小部分,然后处理文件。

 OR

使用缓冲区概念读取文件,一旦完成缓冲区数据,就清除缓冲区。

我遇到了同样的问题,所以我尝试了基于缓冲的方法,它对我有用。

         FileStream inputTempFile = new FileStream(Path, FileMode.OpenOrCreate, FileAccess.Read);
           Buffer_value = 1024;
            byte[] Array_buffer = new byte[Buffer_value];
            while ((bytesRead = inputTempFile.Read(Array_buffer, 0, Buffer_value)) > 0)
            {
               for (int z = 0; z < Array_buffer.Length; z = z + 4)
               {
                  string temp_id = BitConverter.ToString(Array_buffer, z, 4);
                  string[] temp_strArrayID = temp_id.Split(new char[] { '-' });
                  string temp_ArraydataID = temp_strArrayID[0] + temp_strArrayID[1] + temp_strArrayID[2] + temp_strArrayID[3];
               }
            }
通过这种方式,您可以处理数据。

对于我的情况,我试图将缓冲区读取数据存储到List中,它将工作正常,直到2GB数据之后,它将引发内存异常。

我遵循的方法,从缓冲区读取数据并应用所需的过滤器并将过滤器数据写入文本文件,然后处理该文件。

//文本文件方法

           FileStream inputTempFile = new FileStream(Path, FileMode.OpenOrCreate, FileAccess.Read);
           Buffer_value = 1024;
            StreamWriter writer = new StreamWriter(Path, true);
            byte[] Array_buffer = new byte[Buffer_value];
            while ((bytesRead = inputTempFile.Read(Array_buffer, 0, Buffer_value)) > 0)
            {
               for (int z = 0; z < Array_buffer.Length; z = z + 4)
               {
                 string temp_id = BitConverter.ToString(Array_buffer, z, 4);
                 string[] temp_strArrayID = temp_id.Split(new char[] { '-' });
                 string temp_ArraydataID = temp_strArrayID[0] + temp_strArrayID[1] + temp_strArrayID[2] + temp_strArrayID[3];
                 if(temp_ArraydataID =="XYZ Condition")
                 { 
                     writer.WriteLine(temp_ArraydataID);
                 }
               }

            }
           writer.Close();