Question

我需要将unicode字符串转换为具有以unicode编码的非ascii字符的字符串。例如，字符串“汉字Max”应显示为“\ u6F22 \ u5B57 Max”。

我尝试过：

区分
的组合
new String（sourceString.getBytes（encoding1），encoding2）
Apache StringEscapeUtils，它也像双引号一样转义为ascii字符

StringEscapeUtils.escapeJava（源）

是否有一种简单的方法来编码这样的字符串？理想情况下，只应使用Java 6 SE或Apache Commons来实现所需的结果。

Answer 1

这是Jon Skeet在评论中想到的一种简单代码：

final String in = "šđčćasdf";
final StringBuilder out = new StringBuilder();
for (int i = 0; i < in.length(); i++) {
  final char ch = in.charAt(i);
  if (ch <= 127) out.append(ch);
  else out.append("\\u").append(String.format("%04x", (int)ch));
}
System.out.println(out.toString());

正如Jon所说，代理对将被表示为一对\u逃脱。

Answer 2

基于番石榴Escaper的解决方案：

这会将任何非ASCII字符转义为Unicode转义序列。

import static java.lang.String.format;    
import com.google.common.escape.CharEscaper;

public class NonAsciiUnicodeEscaper extends CharEscaper
{
    @Override
    protected char[] escape(final char c)
    {
        if (c >= 32 && c <= 127) { return new char[]{c}; }
        else { return format("\\u%04x", (int) c).toCharArray(); }
    }
}

将UTF-8 Unicode字符串转换为ASCII Unicode转义字符串

2 个答案:

基于番石榴Escaper的解决方案：