如何使用Jsoup删除HTML实体?如果我使用Element.toString(),我得到:
(...)
<td>Letter ó</td> //valid: <td>Letter ó</td>
(...)
答案 0 :(得分:3)
这可能与您的问题的上下文无关,但是如果您只想解码HTML实体而字符串中没有任何其他更改(没有标记处理,没有评论剥离等),您可以使用{{3例如:
assert Parser.unescapeEntities("x ≈ <i>y</i>\n", true)
.equals("x ≈ <i>y</i>\n");
答案 1 :(得分:2)
我相信您可以在创建类似这样的Jsoup文档时指定编码:
Document newDocument = Jsoup.parse(htmlString, StringUtils.EMPTY, Parser.htmlParser());
newDocument.outputSettings().escapeMode(EscapeMode.base);
newDocument.outputSettings().charset(CharEncoding.UTF_8);