Question

我在使用Visual Studio 2010比较C＃4.0中的单元测试中的字符串时遇到问题。同样的测试用例在Visual Studio 2008中正常工作（使用C＃3.5）。

以下是相关的代码段：

byte[] rawData = GetData();
string data = Encoding.UTF8.GetString(rawData);

Assert.AreEqual("Constant", data, false, CultureInfo.InvariantCulture);

在调试此测试时，data字符串肉眼看来包含与文字完全相同的字符串。当我调用data.ToCharArray()时，我注意到字符串data的第一个字节是值65279，它是UTF-8字节顺序标记。我不明白的是为什么Encoding.UTF8.GetString()保留了这个字节。

如何让Encoding.UTF8.GetString() 不将字节顺序标记放在结果字符串中？

更新：问题在于GetData()从磁盘读取文件，使用FileStream.readbytes()从文件中读取数据。我通过使用StreamReader并使用Encoding.UTF8.GetBytes()将字符串转换为字节来更正此问题，这应该是它本来应该做的事情！感谢您的帮助。

Answer 1

嗯，我认为这是因为原始二进制数据包括BOM。您可以在解码后自己删除BOM，如果您不想要它 - 但您应该考虑字节数组是否应该考虑开始使用BOM。

编辑：或者，您可以使用StreamReader执行解码。这是一个示例，显示使用Encoding.GetString将相同的字节数组转换为两个字符或通过StreamReader转换为一个字符：

using System;
using System.IO;
using System.Text;

class Test
{
    static void Main()
    {
        byte[] withBom = { 0xef, 0xbb, 0xbf, 0x41 };
        string viaEncoding = Encoding.UTF8.GetString(withBom);
        Console.WriteLine(viaEncoding.Length);

        string viaStreamReader;
        using (StreamReader reader = new StreamReader
               (new MemoryStream(withBom), Encoding.UTF8))
        {
            viaStreamReader = reader.ReadToEnd();           
        }
        Console.WriteLine(viaStreamReader.Length);
    }
}

Answer 2

有一种比创建StreamReader和MemoryStream更有效的方法：

1）如果您知道总有BOM

string viaEncoding = Encoding.UTF8.GetString(withBom, 3, withBom.Length - 3);

2）如果你不知道，请检查：

string viaEncoding;
if (withBom.Length >= 3 && withBom[0] == 0xEF && withBom[1] == 0xBB && withBom[2] == 0xBF)
    viaEncoding = Encoding.UTF8.GetString(withBom, 3, withBom.Length - 3);
else
    viaEncoding = Encoding.UTF8.GetString(withBom);

Answer 3

我相信如果修剪（）已解码的字符串

，则会删除额外的字符

如何在字符串比较中忽略UTF-8字节顺序标记？

3 个答案: