Question

我的html文件包含以下内容：

<html>
    <title><s:message code="test" /></title>
</html>

Java程序：

String input = readFileAsString(filePath);
Document doc = Jsoup.parse(input);

Elements messageEls = doc.select("s|message");

我看到输出如下：

<html>
 <head>
  <title>&lt;s:message code="test" /&gt;</title> 
 </head>
 <body> 
 </body>

以某种方式转换<字符&lt。如果没有enscape我怎么能得到原始的意见？其实我需要找到元素<s:message 但由于逃避，它找不到元素<s:message code="test" />？

Answer 1

Jsoup转义因为<s:message />不是标准的HTML标记。

尝试使用XML parser：

Document doc = Jsoup.parse(input, "", Parser.xmlParser());

创建一个新的XML解析器。这个解析器假定不知道传入标签并不将其视为HTML，而是创建一个简单的标签树直接来自输入。