将Windows-1252字符串与UTF-8字符串进行比较

时间:2014-12-16 18:57:19

标签: c# string character-encoding windows-1252

我的目标是将.NET字符串(Unicode)转换为Windows-1252,并且 - 如有必要 - 将原始UTF-8字符串存储在Base64实体中。

例如,字符串" DJ Doena"转换为1252仍然是" DJ Doena"。

但是,如果将日语kanjii for tree(木)转换为1251,则最终会出现问号。

这些是我的测试字符串:

String doena = "DJ Doena";
String umlaut = "äöüßéèâ";
String allIn = "< ä ß á â & 木 >";

这是我首先转换字符串的方式:

using (MemoryStream ms = new MemoryStream())
{
    using (StreamWriter sw = new StreamWriter(ms, Encoding.UTF8))
    {
        sw.Write(decoded);
        sw.Flush();
        ms.Seek(0, SeekOrigin.Begin);
        using (StreamReader sr = new StreamReader(ms, Encoding.GetEncoding(1252)))
        {
            encoded = sr.ReadToEnd();
        }
    }
}

问题是,在调试字符串比较声明两者确实相同时,简单的==.Equals()就不够了。

这就是我试图找出是否需要base64并生成它的方法:

private static String GetBase64Alternate(String utf8Text, String windows1252Text)
{
    Byte[] utf8Bytes;
    Byte[] windows1252Bytes;
    String base64;

    utf8Bytes = Encoding.UTF8.GetBytes(utf8Text);
    windows1252Bytes = Encoding.GetEncoding(1252).GetBytes(windows1252Text);
    base64 = null;
    if (utf8Bytes.Length != windows1252Bytes.Length)
    {
        base64 = Convert.ToBase64String(utf8Bytes);
    }
    else
    {
        for(Int32 i = 0; i < utf8Bytes.Length; i++)
        {
            if(utf8Bytes[i] != windows1252Bytes[i])
            {
                base64 = Convert.ToBase64String(utf8Bytes);
                break;
            }
        }
    }
    return (base64);
}

第一个字符串doena完全相同,并且不会产生base64结果

Console.WriteLine(String.Format("{0} / {1}", windows1252Text, base64Text));

结果

DJ Doena /

但是第二个字符串umlauts在UTF-8中的字节数已经是1252中的两倍,因此产生了一个Base64字符串,即使它似乎没有必要:

äöüßéèâ / w6TDtsO8w5/DqcOow6I=

第三个人做了它应该做的事情(不再是&#34;木&#34;但是&#34;?&#34;,因此需要base64):

< ä ß á â & ? > / PCDDpCDDnyDDoSDDoiAmIOacqCA+

任何线索如何增强我的Base64吸气剂a)性能b)以获得更好的效果?

提前谢谢你。 : - )

2 个答案:

答案 0 :(得分:3)

我不确定我完全理解这个问题。但我试过了。 :)如果我理解正确,这段代码可以满足您的需求:

static void Main(string[] args)
{
    string[] testStrings = { "DJ Doena", "äöüßéèâ", "< ä ß á â & 木 >" };

    foreach (string text in testStrings)
    {
        Console.WriteLine(ReencodeText(text));
    }
}

private static string ReencodeText(string text)
{
    Encoding encoding = Encoding.GetEncoding(1252);
    string text1252 = encoding.GetString(encoding.GetBytes(text));

    return text.Equals(text1252, StringComparison.Ordinal) ?
        text : Convert.ToBase64String(Encoding.UTF8.GetBytes(text));
}

即。它将文本编码为Windows-1252,然后解码回string对象,然后将其与原始对象进行比较。如果比较成功,则返回原始字符串,否则将其编码为UTF8,然后编码为base64。

它产生以下输出:

  DJ Doena
  äöüßéèâ
  PCDDpCDDnyDDoSDDoiAmIOacqCA +

换句话说,前两个字符串保持不变,而第三个字符串编码为base64。

答案 1 :(得分:1)

在您的第一个代码中,您使用一种编码对字符串进行编码,然后使用不同的编码对其进行解码。这根本不能给你任何可靠的结果;它相当于用八进制写出一个数字,然后把它读成十进制数。对于最多7个数字似乎工作得很好,但之后就会得到无用的结果。

GetBase64Alternate方法的问题在于它将字符串编码为两种不同的编码,并假设如果第二种编码导致第一种编码不支持某些字符一组不同的字节。

比较字节序列并不能告诉您是否有任何编码失败。如果序列失败,序列将会有所不同,但如果编码之间的任何字符编码不同,它们也会有所不同。

您要做的是确定编码是否真正适用于所有字符。您可以通过为不受支持的字符创建一个带有后备的Encoding实例来实现此目的。您可以使用EncoderExceptionFallback类,如果它被调用则抛出EncoderFallbackException

此代码将尝试对字符串使用Windows-1252编码,如果编码不支持字符串中的所有字符,则将ok变量设置为false

Encoding e = Encoding.GetEncoding(1252, new EncoderExceptionFallback(), new DecoderExceptionFallback());
bool ok = true;
try {
  e.GetByteCount(allIn);
} catch (EncoderFallbackException) {
  ok = false;
}

由于您实际上并未使用任何编码结果,因此可以使用GetByteCount方法。它将检查所有字符的编码方式,而不会产生编码结果。

在您的方法中使用它将是:

private static String GetBase64Alternate(string text) {
  Encoding e = Encoding.GetEncoding(1252, new EncoderExceptionFallback(), new DecoderExceptionFallback());
  bool ok = true;
  try {
    e.GetByteCount(allIn);
  } catch (EncoderFallbackException) {
    ok = false;
  }
  return ok ? null : Convert.ToBase64(Encoding.UTF8.GetBytes(text));
}