如何检测我的JSON字符串是否已在Java中转义HTML标记

时间:2013-08-30 23:48:31

标签: java json encoding

我正在尝试用Java编写单元测试来测试编码的JSON值。我正在尝试执行以下操作:

assertEquals(expectedJSON(),actualJSON())

其中 expectedJSON()返回

{
    "someHtml": {
        "html": "<html>HTML&CSS</html>"
    }
}

其中 actualJSON()返回

 {
        "someHtml": {
            "html": "\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E"
        }
    }

我希望expectedJSON返回realJSON()返回的内容,但我无法找到一种简单的方法来执行此操作。我在网上看过,但在这方面没有找到任何容易的东西。 actualJSON()正在进行一些复杂的处理,需要以这种方式返回值。我的 expectedJSON()方法看起来像这样

public String expectedJSONWithHTMLValues(){
        return "{" +
                    "\"someHtml\":{" +
                  "\"html\":\"\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E\"}}";
    }

2 个答案:

答案 0 :(得分:6)

要添加到另一个答案,\u转义符在Java中有一个有趣的属性,它们实际上由编译器预处理JLS §3.3)。

通过这个,我的意思是在转到编译器之前,源文件中替换了\u个字符。因此,您的代码:

public String expectedJSONWithHTMLValues(){
    return "{" +
           "\"someHtml\":{" +
           "\"html\":\"\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E\"}}";
}

正在进行预处理:

public String expectedJSONWithHTMLValues(){
    return "{" +
           "\"someHtml\":{" +
           "\"html\":\"<html>HTML&CSS</html>\"}}";
}

正在编译。

Java编译器会在实际编译文件之前将任何\u转义转换为字符。这意味着\u转义符可用于变量名,类名,方法名等。编译器会将其转换为字符本身并在编译过程中使用它。这就是为什么你应该在字符串中使用\n而不是\u000a。如果您使用后者,源代码将来自以下内容:

String s = "My\u000aNewline";

对此:

String s = "My
Newline";

这会导致编译器错误,因为String文字被拆分为多行。

这可以让你做一些非常糟糕的事情。例如,这是100%合法的Java代码,可以在任何操作系统上编译:

\u0070\u0075\u0062\u006c\u0069\u0063 \u0063\u006c\u0061\u0073\u0073 \u004d\u0061\u0069\u006e \u007b

    \u0070\u0072\u0069\u0076\u0061\u0074\u0065 \u0073\u0074\u0061\u0074\u0069\u0063 \u0053\u0074\u0072\u0069\u006e\u0067 \u0073\u006f\u006d\u0065\u0053\u0074\u0072\u0069\u006e\u0067 \u003d \u0022\u004d\u0079 \u0053\u0074\u0072\u0069\u006e\u0067\u0022\u003b

    \u0070\u0075\u0062\u006c\u0069\u0063 \u0073\u0074\u0061\u0074\u0069\u0063 \u0076\u006f\u0069\u0064 \u006d\u0061\u0069\u006e\u0028\u0053\u0074\u0072\u0069\u006e\u0067\u005b\u005d \u0061\u0072\u0067\u0073\u0029 \u007b
        \u0053\u0079\u0073\u0074\u0065\u006d\u002e\u006f\u0075\u0074\u002e\u0070\u0072\u0069\u006e\u0074\u006c\u006e\u0028\u0073\u006f\u006d\u0065\u0053\u0074\u0072\u0069\u006e\u0067\u0029\u003b
    \u007d
\u007d

打印:

My String

不相信我? See for yourself.编译器首先将所有\u转义符转换为字符,其中包含\u0070\u0072\u0069\u0076\u0061\u0074\u0065之类的所有内容,并将其转换为private\u0073\u0074\u0061\u0074\u0069\u0063\u0053\u0074\u0072\u0069\u006e\u0067转换为String

无论如何,为了解决您的特定问题,您需要做的就是双重转义\,如下所示:

public String expectedJSONWithHTMLValues(){
    return "{" +
           "\"someHtml\":{" +
           "\"html\":\"\\u003Chtml\\u003EHTML\\u0026CSS\\u003C/html\\u003E\"}}";
}

值得注意的是这个字符串:

{"someHtml":{"html":"\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E"}}

不等于此字符串,并添加了空格:

{
    "someHtml": {
        "html": "\u003Chtml\u003EHTML\u0026CSS\u003C/html\u003E"
    }
}

String.equals将包含相等的空格,因此请确保您的两个字符串逐个字符,包括空格。

答案 1 :(得分:1)

反斜杠在String常量中具有特殊含义,不仅在您编写"\""时,而且当您编写"\u003C"之类的内容时。在后一种情况下,序列\u003C被Unicode字符U + 003C替换,即'<'。如果你想要文字序列\u003C,你必须引用反斜杠本身来在String常量中插入反斜杠字符:"\\u003C"

请注意,由于空格不同,您的String匹配仍可能失败。由于从JSON的角度来看这个空白是可以忽略的,因此对JSON值执行精确的String匹配并不是一个好主意。