Question

如何使用Jsoup删除HTML实体？如果我使用Element.toString（），我得到：

(...)
       <td>Letter &oacute;</td> //valid: <td>Letter ó</td>
(...)

Answer 1

这可能与您的问题的上下文无关，但是如果您只想解码HTML实体而字符串中没有任何其他更改（没有标记处理，没有评论剥离等），您可以使用{{3例如：

assert Parser.unescapeEntities("x &asymp; <i>y</i>\n", true)
    .equals("x ≈ <i>y</i>\n");

Answer 2

我相信您可以在创建类似这样的Jsoup文档时指定编码：

Document newDocument = Jsoup.parse(htmlString, StringUtils.EMPTY, Parser.htmlParser());
newDocument.outputSettings().escapeMode(EscapeMode.base);
newDocument.outputSettings().charset(CharEncoding.UTF_8);

如何删除Jsoup中的HTML实体？

2 个答案: