如何分析二进制序列化流的内容?

时间:2010-06-16 09:51:18

标签: c# .net serialization binary-serialization

我正在使用二进制序列化(BinaryFormatter)作为临时机制,将状态信息存储在相对复杂(游戏)对象结构的文件中;文件出来大于我的预期,我的数据结构包括递归引用 - 所以我想知道BinaryFormatter是否实际存储了相同对象的多个副本,或者我的基本“数字”是否存在对象和价值观我应该“arithmentic是偏离基础的,或者其他大小的来源。

搜索堆栈溢出我能够找到Microsoft的二进制远程格式的规范: http://msdn.microsoft.com/en-us/library/cc236844(PROT.10).aspx

我找不到的是任何现有的查看器,它使您能够“查看”二进制格式化输出文件的内容 - 获取文件中不同对象类型的对象计数和总字节数等;

我觉得这一定是我的“google-fu”让我失望(我什么都没有) - 任何人都可以帮忙吗?这个必须之前已经完成,对吧?


更新:我找不到它并且没有得到答案所以我把相对较快的东西放在一起(链接到下面的可下载项目);我可以确认BinaryFormatter不存储同一对象的多个副本,但它会向流中打印相当多的元数据。如果您需要高效存储,请构建自己的自定义序列化方法。

4 个答案:

答案 0 :(得分:77)

因为对于我决定做这篇文章的人来说可能有兴趣关于序列化.NET对象的二进制格式是什么样子以及我们如何正确解释它?

我的所有研究都基于.NET Remoting: Binary Format Data Structure规范。



示例类:

为了有一个工作示例,我创建了一个名为A的简单类,它包含2个属性,一个字符串和一个整数值,它们被称为SomeStringSomeValue

班级A如下所示:

[Serializable()]
public class A
{
    public string SomeString
    {
        get;
        set;
    }

    public int SomeValue
    {
        get;
        set;
    }
}

对于序列化,我当然使用BinaryFormatter

BinaryFormatter bf = new BinaryFormatter();
StreamWriter sw = new StreamWriter("test.txt");
bf.Serialize(sw.BaseStream, new A() { SomeString = "abc", SomeValue = 123 });
sw.Close();

可以看出,我传递了一个包含Aabc的类123的新实例作为值。



示例结果数据:

如果我们在十六进制编辑器中查看序列化结果,我们会得到类似的结果:

Example result data



让我们解释一下示例结果数据:

根据上述规范(这里是PDF的直接链接:[MS-NRBF].pdf),流中的每条记录都由RecordTypeEnumeration标识。第2.1.2.1 RecordTypeNumeration节说明:

  

此枚举标识记录的类型。每条记录(MemberPrimitiveUnTyped除外)都以记录类型枚举开头。枚举的大小是一个BYTE。



SerializationHeaderRecord:

因此,如果我们回顾一下我们得到的数据,我们就可以开始解释第一个字节了:

SerializationHeaderRecord_RecordTypeEnumeration

正如2.1.2.1 RecordTypeEnumeration中所述,0的值标识了SerializationHeaderRecord中指定的2.6.1 SerializationHeaderRecord

  

SerializationHeaderRecord记录必须是二进制序列化中的第一条记录。此记录包含格式的主要版本和次要版本以及顶部对象和标题的ID。

它包括:

  • RecordTypeEnum(1个字节)
  • RootId(4个字节)
  • HeaderId(4个字节)
  • MajorVersion(4个字节)
  • MinorVersion(4个字节)



有了这些知识,我们就可以解释包含17个字节的记录:

SerializationHeaderRecord_Complete

00代表RecordTypeEnumeration,在我们的案例中为SerializationHeaderRecord

01 00 00 00代表RootId

  

如果序列化流中既不存在BinaryMethodCall也不存在BinaryMethodReturn记录,则该字段的值必须包含序列化流中包含的Class,Array或BinaryObjectString记录的ObjectId。

所以在我们的例子中,这应该是ObjectId,其值为1(因为数据是使用little-endian序列化的),我们希望再次看到它们; - )

FF FF FF FF代表HeaderId

01 00 00 00代表MajorVersion

00 00 00 00代表MinorVersion



BinaryLibrary:

根据规定,每条记录必须以RecordTypeEnumeration开头。当最后一条记录完成时,我们必须假设一条新记录开始。

让我们解释下一个字节:

BinaryLibraryRecord_RecordTypeEnumeration

我们可以看到,在我们的示例中,SerializationHeaderRecord后跟BinaryLibrary记录:

  

BinaryLibrary记录将INT32 ID(在[MS-DTYP]第2.2.22节中指定)与库名称相关联。这允许其他记录使用ID引用库名称。当有多个记录引用相同的库名称时,此方法会减小电线大小。

它包括:

  • RecordTypeEnum(1个字节)
  • LibraryId(4个字节)
  • LibraryName(可变字节数(LengthPrefixedString))



2.1.1.6 LengthPrefixedString中所述......

  

LengthPrefixedString表示字符串值。该字符串以UTF-8编码字符串的长度为前缀,以字节为单位。长度编码在可变长度字段中,最小为1个字节,最多为5个字节。为了最小化导线尺寸,将长度编码为可变长度字段。

在我们的简单示例中,长度始终使用1 byte进行编码。有了这些知识,我们可以继续解释流中的字节:

BinaryLibraryRecord_RecordTypeEnumeration_LibraryId

0C代表标识RecordTypeEnumeration记录的BinaryLibrary

02 00 00 00代表LibraryId,在我们的案例中为2



现在LengthPrefixedString跟随:

BinaryLibraryRecord_RecordTypeEnumeration_LibraryId_LibraryName

42代表包含LengthPrefixedString的{​​{1}}的长度信息。

在我们的例子中,LibraryName(十进制66)的长度信息告诉我们,我们需要读取接下来的66个字节并将它们解释为42

如前所述,字符串是LibraryName编码的,因此上面字节的结果类似于:UTF-8



ClassWithMembersAndTypes:

同样,记录已完成,因此我们解释了下一个的_WorkSpace_, Version=1.0.0.0, Culture=neutral, PublicKeyToken=null

ClassWithMembersAndTypesRecord_RecordTypeEnumeration

RecordTypeEnumeration标识05条记录。第ClassWithMembersAndTypes节说明:

  

ClassWithMembersAndTypes记录是类记录中最详细的。它包含有关成员的元数据,包括成员的名称和远程处理类型。它还包含一个引用类的库名称的库ID。

它包括:

  • RecordTypeEnum(1个字节)
  • ClassInfo(可变字节数)
  • MemberTypeInfo(可变字节数)
  • LibraryId(4个字节)



的ClassInfo:

2.3.2.1 ClassWithMembersAndTypes所述,记录包括:

  • ObjectId(4个字节)
  • 名称(可变字节数(再次为2.3.1.1 ClassInfo))
  • MemberCount(4个字节)
  • MemberNames(LengthPrefixedString' s的序列,其中项目数必须等于LengthPrefixedString字段中指定的值。)



回到原始数据,一步一步:

ClassWithMembersAndTypesRecord_RecordTypeEnumeration_ClassInfo_ObjectId

MemberCount代表01 00 00 00。我们已经看过这个,它被指定为ObjectId中的RootId

ClassWithMembersAndTypesRecord_RecordTypeEnumeration_ClassInfo_ObjectId_Name

SerializationHeaderRecord表示使用0F 53 74 61 63 6B 4F 76 65 72 46 6C 6F 77 2E 41表示的类的Name。如上所述,在我们的示例中,字符串的长度定义为1个字节,因此第一个字节LengthPrefixedString指定必须使用UTF-8读取和解码15个字节。结果如下所示:0F - 显然我使用StackOverFlow.A作为命名空间的名称。

ClassWithMembersAndTypesRecord_RecordTypeEnumeration_ClassInfo_ObjectId_Name_MemberCount

StackOverFlow代表02 00 00 00,它告诉我们2位成员,均由MemberCount代表。

第一个成员的名字: ClassWithMembersAndTypesRecord_MemberNameOne

LengthPrefixedString代表第一个1B 3C 53 6F 6D 65 53 74 72 69 6E 67 3E 6B 5F 5F 42 61 63 6B 69 6E 67 46 69 65 6C 64MemberName再次是字符串的长度,长度为27个字节,结果如下:1B

第二个成员的名字: ClassWithMembersAndTypesRecord_MemberNameTwo

<SomeString>k__BackingField代表第二个1A 3C 53 6F 6D 65 56 61 6C 75 65 3E 6B 5F 5F 42 61 63 6B 69 6E 67 46 69 65 6C 64MemberName指定字符串长度为26个字节。结果如下:1A



MemberTypeInfo:

<SomeValue>k__BackingField ClassInfo之后。

MemberTypeInfo节声明该结构包含:

  • BinaryTypeEnums(长度可变)
  

一系列BinaryTypeEnumeration值,表示正在传输的成员类型。数组必须:

     
      
  • 与ClassInfo结构的MemberNames字段具有相同数量的项目。

  •   
  • 按顺序排列,使BinaryTypeEnumeration对应ClassInfo结构的MemberNames字段中的成员名称。

  •   
  • AdditionalInfos(长度可变),取决于2.3.1.2 - MemberTypeInfo其他信息可能存在也可能不存在。
  

BinaryTpeEnum
  | BinaryTypeEnum | AdditionalInfos |
  |----------------+--------------------------|
  | Primitive | PrimitiveTypeEnumeration |

因此考虑到这一点,我们几乎就在那里...... 我们预计会有2 | String | None |个值(因为BinaryTypeEnumeration中有2个成员)。



再次,回到完整MemberNames记录的原始数据:

ClassWithMembersAndTypesRecord_MemberTypeInfo

MemberTypeInfo代表第一个成员的01,根据BinaryTypeEnumeration我们可以预期2.1.2.2 BinaryTypeEnumeration,并使用String表示。

LengthPrefixedString代表第二个成员的00,同样,根据规范,它是BinaryTypeEnumeration。如上所述,Primitive之后是其他信息,在本例中为Primitive。这就是为什么我们需要读取PrimitiveTypeEnumeration的下一个字节,使其与08中所述的表格相匹配,并惊讶地发现我们可以期待2.1.2.3 PrimitiveTypeEnumeration由4个字节表示,如关于基本数据类型的其他文档中所述。



库Id:

Int32跟随MemerTypeInfo之后,它由4个字节表示:

ClassWithMembersAndTypesRecord_LibraryId

LibraryId代表02 00 00 00,即2。



值:

LibraryId中所述:

  

类的成员的值必须序列化为遵循此记录的记录,如2.7节所述。记录的顺序必须与ClassInfo(第2.3.1.1节)结构中指定的MemberNames的顺序相匹配。

这就是为什么我们现在可以期待成员的价值观。

让我们看看最后几个字节:

BinaryObjectStringRecord_RecordTypeEnumeration

2.3 Class Records标识06。它代表我们BinaryObjectString属性的值(确切地说SomeString。)

根据<SomeString>k__BackingField,它包含:

  • RecordTypeEnum(1个字节)
  • ObjectId(4个字节)
  • 值(可变长度,表示为2.5.7 BinaryObjectString



所以知道这一点,我们可以清楚地确定

BinaryObjectStringRecord_RecordTypeEnumeration_ObjectId_MemberOneValue

LengthPrefixedString代表03 00 00 00

ObjectId代表03 61 62 63,其中Value是字符串本身的长度,03是转换为61 62 63的内容字节。

希望你能记得有第二个成员abc。知道使用4个字节表示Int32,我们可以得出结论,

BinaryObjectStringRecord_RecordTypeEnumeration_ObjectId_MemberOneValue_MemberTwoValue

必须是我们第二个成员的Int32Value十六进制等于7B十进制,似乎符合我们的示例代码。

所以这是完整的123记录: ClassWithMembersAndTypesRecord_Complete



MessageEnd:

MessageEnd_RecordTypeEnumeration

最后,最后一个字节ClassWithMembersAndTypes代表0B记录。

答案 1 :(得分:7)

Vasiliy是正确的,我最终需要实现自己的格式化程序/序列化过程,以更好地处理版本控制并输出更紧凑的流(压缩前)。

我确实想要了解流中发生了什么,但是,我写了一个(相对)快速的课程来完成我想要的工作:

  • 解析整个流,构建对象名称,计数和大小的集合
  • 完成后,输出所发现内容的快速摘要 - 流中的类,计数和总大小

对我来说,把它放在像codeproject这样可见的地方是没有用的,所以我只是将项目转储到我的网站上的zip文件中:http://www.architectshack.com/BinarySerializationAnalysis.ashx

在我的具体案例中,事实证明问题是双重的:

  • BinaryFormatter非常详细(这是众所周知的,我只是没有意识到程度)
  • 我的课上确实遇到了问题,结果发现我正在存储我不想要的对象

希望这会在某些时候帮助某人!


更新:Ian Wright与原始代码的问题联系我,当源对象包含“十进制”值时,它崩溃了。现在已经更正了,我已经利用这个机会将代码移动到GitHub并给它一个(许可的,BSD)许可证。

答案 2 :(得分:5)

我们的应用程序运行大量数据。它可能需要1-2 GB的RAM,就像你的游戏一样。我们遇到了同样的“存储同一对象的多个副本”问题。二进制序列化也存储了太多的元数据。首次实现时,序列化文件大约需要1-2 GB。现在我设法减少了价值 - 50-100 MB。我们做了什么。

简短的回答 - 不要使用.Net二进制序列化,创建自己的二进制序列化机制。我们有自己的BinaryFormatter类和ISerializable接口(有两种方法Serialize,Deserialize)。

同一个对象不应该多次序列化。我们保存它的唯一ID并从缓存中恢复对象。

如果你问我可以分享一些代码。

编辑:看来你是对的。请参阅以下代码 - 它证明我错了。

[Serializable]
public class Item
{
    public string Data { get; set; }
}

[Serializable]
public class ItemHolder
{
    public Item Item1 { get; set; }

    public Item Item2 { get; set; }
}

public class Program
{
    public static void Main(params string[] args)
    {
        {
            Item item0 = new Item() { Data = "0000000000" };
            ItemHolder holderOneInstance = new ItemHolder() { Item1 = item0, Item2 = item0 };

            var fs0 = File.Create("temp-file0.txt");
            var formatter0 = new BinaryFormatter();
            formatter0.Serialize(fs0, holderOneInstance);
            fs0.Close();
            Console.WriteLine("One instance: " + new FileInfo(fs0.Name).Length); // 335
            //File.Delete(fs0.Name);
        }

        {
            Item item1 = new Item() { Data = "1111111111" };
            Item item2 = new Item() { Data = "2222222222" };
            ItemHolder holderTwoInstances = new ItemHolder() { Item1 = item1, Item2 = item2 };

            var fs1 = File.Create("temp-file1.txt");
            var formatter1 = new BinaryFormatter();
            formatter1.Serialize(fs1, holderTwoInstances);
            fs1.Close();
            Console.WriteLine("Two instances: " + new FileInfo(fs1.Name).Length); // 360
            //File.Delete(fs1.Name);
        }
    }
}

看起来BinaryFormatter使用object.Equals来查找相同的对象。

您是否曾查看过生成的文件?如果从代码示例中打开“temp-file0.txt”和“temp-file1.txt”,您会看到它有很多元数据。这就是为什么我建议你创建自己的序列化机制。

很抱歉被关注。

答案 3 :(得分:0)

也许您可以在调试模式下运行程序并尝试添加控制点。

如果由于游戏的大小或其他依赖性而无法做到这一点,您可以随时处理包含反序列化代码的简单/小型应用程序,并从那里查看调试模式。