为什么我在字节数组的开头有一个额外的字符(点或子弹点)?

时间:2009-08-11 15:05:41

标签: c# xml

我有以下代码用于使用UTF-8编码将xml从DataSet转换为字节数组:

private static byte[] fGetXmlBytes(DataTable lvDataTable)
{
  XmlWriterSettings lvSettings = new XmlWriterSettings();
  lvSettings.Encoding = Encoding.UTF8;
  lvSettings.NewLineHandling = NewLineHandling.Replace;
  lvSettings.NewLineChars = String.Empty;

  using(MemoryStream lvMemoryStream = new MemoryStream())
  using (XmlWriter lvWriter = XmlWriter.Create(lvMemoryStream, lvSettings))
  {
    lvDataTable.WriteXml(lvWriter, XmlWriteMode.IgnoreSchema);
    //Lines used during debugging
    //byte[] lvXmlBytes = lvMemoryStream.GetBuffer();
    //String lsXml = Encoding.UTF8.GetString(lvXmlBytes, 0, lvXmlBytes.Length);
    return lvMemoryStream.GetBuffer();
  }
}

我想要一个字节数组,因为我随后将数据传递给在字节数组上工作的压缩和加密例程。问题是我在xml的开头有一个额外的字符。而不是:

<?xml version="1.0" encoding="utf-8"?><etc....

我得到了

.<?xml version="1.0" encoding="utf-8"?><etc....

有谁知道角色为什么存在?有没有办法防止添加角色?或者轻易将其剥离出来?

科林

4 个答案:

答案 0 :(得分:13)

您必须使用不会发出序言的Encoding类。 Encoding.UTF8返回的对象将发出序言,但您可以创建自己的UTF8Encoding,但不会发出这样的序言:

lvSettings.Encoding = new UTF8Encoding(false);

UTF-8前导码是使用UTF-8编码的UNICODE byte order mark(U + FEFF)。 UNICODE字节顺序标记的目的是指示流的16位代码单元的字节顺序(字节顺序)。如果流中的初始字节是0xEF 0xFF,则流是大端;否则,如果初始字节是0xFF 0xEF,则流是小端。

使用UTF-8编码的U + FEFF会产生字节0xEF 0xBB 0xBF,有点讽刺的是,因为UTF-8编码为8位字节序列,所以字节顺序不再重要。

答案 1 :(得分:6)

也许是序言?信息在这里:http://www.firstobject.com/dn_markutf8preamble.htm

答案 2 :(得分:0)

额外的字符是UTF-8前导码。 AFAIK你无法阻止序言被写入流。但是,它真的重要吗?当字节数组被解析回XML时,前导码将被正确解释而不会出错,因此您可以将其保留在那里。

答案 3 :(得分:0)

我在使用此代码时大致相同,并且完美运行:


MemoryStream data = new MemoryStream(1000);
datatable.WriteXml(data);
return data.toArray();