我必须使用Java解码包含以下实体的HTML字符串:“&#39”和“& apos”。 我正在使用Apache Commons Lang,但它并没有对这两个实体进行解码,因此,我现在正在做如下操作,但我正在寻找最快捷的方式来做我想要的。
import org.apache.commons.lang.StringEscapeUtils;
public class StringUtil {
public static String decodeHTMLString(String s) {
return StringEscapeUtils.unescapeHtml((s.replace("'", "`").replace("'", "'")));
}
}
我搜索了较旧的问题,但似乎没有人回答我的问题。
答案 0 :(得分:2)
好吧,我想这部分问题是你的一个实体是双重编码的:“'
”。这不会被任何解码器变成撇号。
对于“'
”,显然一个不是+技术上+ html实体集的一部分。