Question

我有一个字符串“b \ u00f4lovar”，我想知道是否可以在不使用Commons-lang的情况下进行unescape。它有效，但我在一些环境中遇到问题，我想尽量减少它（即：它适用于我的机器但不适用于生产）。

StringEscapeUtils.unescapeJava(variables.getOrElse("name", ""))

如果没有apache lib，我该如何解决它？

提前感谢。

Answer 1

仅Unicode转义

如果您想以\u0000格式仅使用 序列，而只需使用单个正则表达式替换

def unescapeUnicode(str: String): String = """\\u+([0-9a-fA-F]{4})""".r.replaceAllIn(str, m => Integer.parseInt(m.group(1), 16).toChar match { case '\\' => """\\""" case '$' => """\$""" case c => c.toString })

结果是

scala> unescapeUnicode("b\\u00f4lovar \\u30B7") res1: String = bôlovar シ

我们必须分别处理字符$和\，因为java.util.regex.Matcher.appendReplacement方法将它们视为特殊字符：

def wrongUnescape(str: String): String = """\\u([0-9a-fA-F]{4})""".r.replaceAllIn(str, m => Integer.parseInt(m.group(1), 16).toChar.toString) scala> wrongUnescape("\\u00" + Integer.toString('$', 16)) java.lang.IllegalArgumentException: Illegal group reference: group index is missing at java.util.regex.Matcher.appendReplacement(Matcher.java:819) ... 46 elided scala> wrongUnescape("\\u00" + Integer.toString('\\', 16)) java.lang.IllegalArgumentException: character to be escaped is missing at java.util.regex.Matcher.appendReplacement(Matcher.java:809) ... 46 elided

所有转义字符

Unicode字符转义有点特殊：它们不是字符串文字的一部分，而是程序代码的一部分。有一个单独的阶段用字符替换unicode转义：

scala> Integer.toString('a', 16) res2: String = 61 scala> val \u0061 = "foo" a: String = foo scala> // first \u005c is replaced with a backslash, and then \t is replaced with a tab. scala> "\u005ct" res3: String = " "

Scala库中有一个函数StringContext.treatEscapes，它支持语言规范中的所有normal escapes。

因此，如果您想支持unicode转义和所有正常的Scala转义，您可以按顺序进行转发：

def unescape(str: String): String = StringContext.treatEscapes(unescapeUnicode(str)) scala> unescape("\\u0061\\n\\u0062") res4: String = a b scala> unescape("\\u005ct") res5: String = " "

Scala - 没有Apache的unescape Unicode字符串

1 个答案:

仅Unicode转义

所有转义字符