解码UTF-16文本

时间:2012-06-19 16:09:19

标签: java servlets character-encoding

我有一个Java servlet,它通过HTTP GET请求从上游系统接收数据。此请求包含一个名为“text”的参数和另一个名为“charset”的参数,用于指示text参数的编码方式:

如果我指示上游系统向我发送文本并调试servlet请求参数,我会看到以下内容:

request.getParameter("charset") == "UTF-16LE"
request.getParameter("text").getBytes() == [0, 84, 1, 0]

此字符串中两个字符的code points(十六进制)为:

[T]  0054
[Ā]  0100

我无法弄清楚如何将此byte[]转换回字符串"TĀ"。我应该提一下,我并不完全信任charset,并怀疑它可能正在使用UTF-16BE

2 个答案:

答案 0 :(得分:5)

使用String(byteArray, charset)构造函数:

byte[] bytes = { 0, 84, 1, 0 };
String string = new String(bytes, "UTF-16BE");

答案 1 :(得分:0)

你为什么要调用getBytes()?您已将参数作为String。调用getBytes()而不指定字符集只是一个破坏数据的机会。