Question

我正在发送以ISO 88591-1格式保存的文本文件，其中包含来自Latin-1范围的重音字符（以及普通的ASCII a-z等）。如何使用C＃将这些文件转换为UTF-8，以便ISO 8859-1中的单字节重音字符成为有效的UTF-8字符？

我尝试使用带有ASCIIEncoding的StreamReader，然后通过实例化编码ascii和编码utf8然后使用Encoding.Convert(ascii, utf8, ascii.GetBytes( asciiString) )将ASCII字符串转换为UTF-8 - 但重音字符被渲染为问号。

我错过了哪一步？

Answer 1

您需要获取正确的Encoding对象。 ASCII就像它的名字一样：ASCII，意味着它只支持7位ASCII字符。如果您想要做的是转换文件，那么这可能比直接处理字节数组更容易。

using (System.IO.StreamReader reader = new System.IO.StreamReader(fileName,
                                       Encoding.GetEncoding("iso-8859-1")))
{
    using (System.IO.StreamWriter writer = new System.IO.StreamWriter(
                                           outFileName, Encoding.UTF8))
    {
        writer.Write(reader.ReadToEnd());
    }
}

但是，如果您想自己拥有字节数组，那么使用Encoding.Convert就足够了。

byte[] converted = Encoding.Convert(Encoding.GetEncoding("iso-8859-1"), 
    Encoding.UTF8, data);

然而，重要的是要注意，如果您想沿着这条路前进，那么您应该不使用基于编码的字符串阅读器（如StreamReader）作为文件IO。 FileStream会更适合，因为它会读取文件的实际字节数。

为了充分探索这个问题，这样的事情会起作用：

using (System.IO.FileStream input = new System.IO.FileStream(fileName,
                                    System.IO.FileMode.Open, 
                                    System.IO.FileAccess.Read))
{
    byte[] buffer = new byte[input.Length];

    int readLength = 0;

    while (readLength < buffer.Length) 
        readLength += input.Read(buffer, readLength, buffer.Length - readLength);

    byte[] converted = Encoding.Convert(Encoding.GetEncoding("iso-8859-1"), 
                       Encoding.UTF8, buffer);

    using (System.IO.FileStream output = new System.IO.FileStream(outFileName,
                                         System.IO.FileMode.Create, 
                                         System.IO.FileAccess.Write))
    {
        output.Write(converted, 0, converted.Length);
    }
}

在此示例中，buffer变量将文件中的实际数据填充为byte[]，因此不会进行转换。 Encoding.Convert指定源和目标编码，然后将转换后的字节存储在名为... converted的变量中。然后直接将其写入输出文件。

就像我说的，使用StreamReader和StreamWriter的第一个选项会更简单，如果这就是你正在做的事情，但后一个例子应该给你更多关于实际内容的提示继续。

Answer 2

如果文件相对较小（例如，~10兆字节），则只需要两行代码：

  string txt = System.IO.File.ReadAllText(inpPath, Encoding.GetEncoding("iso-8859-1"));
  System.IO.File.WriteAllText(outPath, txt);

使用.NET如何将包含Latin-1重音字符的ISO 8859-1编码文本文件转换为UTF-8

2 个答案: