Question

我尝试用Jsoup解析这个html文件：

<html><body>Maître Corbeau, sur un arbre perché</body></html>

我用过这一行：

Document document = Jsoup.parse(input, "UTF-8");

当我尝试打印文档时：

System.out.println(document.toString());

两个输出：

<html>
<head></head>
<body>
Ma&icirc;tre Corbeau, sur un arbre perch&eacute;
</body>
</html>

为什么有些角色会改变？

Answer 1

我很抱歉，但为什么这是错误的输出？

Ma&icirc;tre Corbeau, sur un arbre perch&eacute;

给你

MaîtreCorbeau，sur unarbreperché

浏览器中的错误是不是正确的呢？如果你想获得带有解码内容的文本，你必须使用document.text() document.toString()，因为第二个会给你HTML输出。但请记住，你将松散所有标签结构od HTML body。如果您确实必须拥有已解码的HTML实体的HTML代码，则必须使用StringEscapeUtils.unescapeHtml4(input)中的Apache Commons Lang

Jsoup以不同的方式解析一些字符

1 个答案: