我尝试用Jsoup解析这个html文件:
<html><body>Maître Corbeau, sur un arbre perché</body></html>
我用过这一行:
Document document = Jsoup.parse(input, "UTF-8");
当我尝试打印文档时:
System.out.println(document.toString());
两个输出:
<html>
<head></head>
<body>
Maître Corbeau, sur un arbre perché
</body>
</html>
为什么有些角色会改变?
答案 0 :(得分:0)
我很抱歉,但为什么这是错误的输出?
Maître Corbeau, sur un arbre perché
给你
浏览器中的错误是不是正确的呢?如果你想获得带有解码内容的文本,你必须使用MaîtreCorbeau,sur unarbreperché
document.text()
document.toString()
,因为第二个会给你HTML输出。
但请记住,你将松散所有标签结构od HTML body。
如果您确实必须拥有已解码的HTML实体的HTML代码,则必须使用StringEscapeUtils.unescapeHtml4(input)
中的Apache Commons Lang