中文字符Java的UTF编码

时间:2011-07-27 01:20:59

标签: java encoding utf

我通过来自axis webservice的对象接收String。因为我没有得到我期望的字符串,所以我通过将字符串转换为字节进行检查,并且我得到了hexa中的C3A4C2 BDC2A0 C3A5C2 A5C2BD C3A5C2 90C297,当我期待E4BDA0 E5A5BD E59097,其实际上是UTF-中的好好吗8。

任何想法可能导致你好吗成为C3A4C2 BDC2A0 C3A5C2 A5C2BD C3A5C2 90C297?我做了谷歌搜索,但我得到的只是一个中文网站,描述了python中发生的问题。任何见解都会很棒,谢谢!

2 个答案:

答案 0 :(得分:15)

您拥有所谓的双重编码。

你有正确指出的三个字符序列“你好吗”用UTF-8编码为E4BDA0 E5A5BD E59097。

但是现在,开始用UTF-8编码THAT编码的每个字节。从E4开始。什么是 UTF-8中的代码点?试试吧!这是C3 A4!

你明白了......: - )

这是一个Java应用程序,说明了这一点:

public class DoubleEncoding {
    public static void main(String[] args) throws Exception {
        byte[] encoding1 = "你好吗".getBytes("UTF-8");
        String string1 = new String(encoding1, "ISO8859-1");
        for (byte b : encoding1) {
            System.out.printf("%2x ", b);
        }
        System.out.println();
        byte[] encoding2 = string1.getBytes("UTF-8");
        for (byte b : encoding2) {
            System.out.printf("%2x ", b);
        }
        System.out.println();
    }

}

答案 1 :(得分:0)

public class Encoder{
    public static void main(String[] args) throws Exception {
     String requestString="你好";
     String ISO = new String(requestString.getBytes("gb2312"), "ISO8859-1");
     String plaintxt = new String(ISO.getBytes("ISO8859-1"), "gb2312");
     plaintxt.getBytes("UTF-8");
    }
}