Jsoup以不同的方式解析一些字符

时间:2014-03-03 11:06:52

标签: java html jsoup

我尝试用Jsoup解析这个html文件:

<html><body>Maître Corbeau, sur un arbre perché</body></html>

我用过这一行:

Document document = Jsoup.parse(input, "UTF-8");

当我尝试打印文档时:

System.out.println(document.toString());

两个输出:

<html>
<head></head>
<body>
Ma&icirc;tre Corbeau, sur un arbre perch&eacute;
</body>
</html>

为什么有些角色会改变?

1 个答案:

答案 0 :(得分:0)

我很抱歉,但为什么这是错误的输出?

Ma&icirc;tre Corbeau, sur un arbre perch&eacute;

给你

  

MaîtreCorbeau,sur unarbreperché

浏览器中的错误是不是正确的呢?如果你想获得带有解码内容的文本,你必须使用document.text() document.toString(),因为第二个会给你HTML输出。 但请记住,你将松散所有标签结构od HTML body。 如果您确实必须拥有已解码的HTML实体的HTML代码,则必须使用StringEscapeUtils.unescapeHtml4(input)中的Apache Commons Lang