Java转换编码

时间:2015-07-02 13:34:52

标签: java encoding mojibake

我有一个字符串,它曾经是一个包含mojibakes的xml标签:
<Applicant_Place_Born>Ð&#156;оÑ&#129;ква</Applicant_Place_Born>

我知道完全相同的字符串,但正确的编码是:
<Applicant_Place_Born>Москва</Applicant_Place_Born>

我知道这是因为使用Tcl实用程序我可以将其转换为正确的字符串:

# The original string
set s "Ð&#156;оÑ&#129;ква"
# substituting the html escapes
set t "Ð\x9cоÑ\x81ква"
# decode from utf-8 into Unicode
encoding convertfrom utf-8 "Ð\x9cоÑ\x81ква"
Москва

我尝试了不同的变体:

System.out.println(new String(original.getBytes("UTF-8"), "CP1251"));

但我总是有其他的mojibakes或问号而不是字符。

问:我怎么能像Tcl一样使用Java代码?

修改

我尝试过@Joop Eggen的方法:

import org.apache.commons.lang3.StringEscapeUtils;


public class s {
    static String s;
    public static void main(String[] args) {
        try {
            System.setProperty("file.encoding", "CP1251");
            System.out.println("JVM encoding: " + System.getProperty("file.encoding"));
            s = "Ð&#156;оÑ&#129;ква";
            System.out.println("Original text: " + s);

            s = StringEscapeUtils.unescapeHtml4(s);
            byte[] b = s.getBytes(StandardCharsets.ISO_8859_1);
            s = new String(b, "UTF-16BE");

            System.out.println("Result: " + s);

        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

    }
}

转换后的字符串是Chineese:

JVM encoding: CP1251 Original text: Ð&#156;оÑ&#129;ква Result: 킜킾톁킺킲킰

2 个答案:

答案 0 :(得分:2)

java中的String应该始终是正确的Unicode。在您的情况下,您似乎将UTF16BE解释为一些单字节编码。

补丁将是

String string = new StringEscapeUtils().UnescapeHTML4(s);
byte[] b = string.getBytes(StandardCharsets.ISO_8859_1);
string = new String(b, "UTF-16BE");

现在s应该是正确的Unicode字符串。

System.out.println(s);

如果操作系统例如在Cp1251中,则应该正确转换西里尔文本。

  • s中的字符实际上是UTF-16BE的字节我想
  • 通过单字节编码获取字符串的字节,希望不会发生转换
  • 然后将字节的字符串设置为UTF-16BE,内部转换为Unicode(实际上也是UTF-16BE)

答案 1 :(得分:1)

你非常接近。但是,getBytes用于编码 UTF-8而不是解码。你想要的是

String string = "Ð\x9cоÑ\x81ква";
byte[] bytes = string.getBytes("UTF-8");
System.out.println(new String(bytes, "UTF-8"));