我的html文件包含以下内容:
<html>
<title><s:message code="test" /></title>
</html>
Java程序:
String input = readFileAsString(filePath);
Document doc = Jsoup.parse(input);
Elements messageEls = doc.select("s|message");
我看到输出如下:
<html>
<head>
<title><s:message code="test" /></title>
</head>
<body>
</body>
以某种方式转换<
字符<
。如果没有enscape我怎么能得到原始的意见?其实我需要找到元素<s:message
但由于逃避,它找不到元素<s:message code="test" />
?
答案 0 :(得分:1)
Jsoup转义因为<s:message />
不是标准的HTML标记。
尝试使用XML parser:
Document doc = Jsoup.parse(input, "", Parser.xmlParser());
创建一个新的XML解析器。这个解析器假定不知道 传入标签并不将其视为HTML,而是创建一个简单的标签 树直接来自输入。