Question

我必须使用Java解码包含以下实体的HTML字符串：“＆amp;＃39”和“＆amp; apos”。我正在使用Apache Commons Lang，但它并没有对这两个实体进行解码，因此，我现在正在做如下操作，但我正在寻找最快捷的方式来做我想要的。

import org.apache.commons.lang.StringEscapeUtils;

public class StringUtil {

        public static String decodeHTMLString(String s) {
            return StringEscapeUtils.unescapeHtml((s.replace("&amp;#39;", "`").replace("&apos;", "'")));
        }

}

我搜索了较旧的问题，但似乎没有人回答我的问题。

Answer 1

好吧，我想这部分问题是你的一个实体是双重编码的：“&#39;”。这不会被任何解码器变成撇号。

对于“'”，显然一个不是+技术上+ html实体集的一部分。

Java中的HTML实体解码：撇号

1 个答案: