String
类有一个构造函数:
new String(byte[] bytes, Charset charset)
和方法:
byte[] getBytes(Charset charset)
鉴于我将charset
定义如下:
Charset charset = Charset.forName("UTF-8");
我实际上会使用什么样的编码?更具体地说,它是标准的UTF-8(如RFC 3629中所述),还是CESU-8或Modified UTF-8? (另见Wikipedia article)
如果它不是标准的UTF-8,是否有一个允许在utf8中进行字符串操作的库?
这些UTF-8衍生编码的转换器非常受欢迎!
答案 0 :(得分:3)
UTF-8字符集由RFC 2279指定;它所基于的转换格式在ISO 10646-1的第2修正案中规定,并在Unicode Standard中进行了描述。
http://download-llnw.oracle.com/javase/6/docs/api/java/nio/charset/Charset.html