Question

我想使用Java标准库将一些HTML字符转换回文本。我想知道是否有任何图书馆能实现我的目的？

/**
 * @param args the command line arguments
 */
public static void main(String[] args) {
    // TODO code application logic here

    // "Happy & Sad" in HTML form.
    String s = "Happy &amp; Sad";
    System.out.println(s);

    try {
        // Change to "Happy & Sad". DOESN'T WORK!
        s = java.net.URLDecoder.decode(s, "UTF-8");
        System.out.println(s);
    } catch (UnsupportedEncodingException ex) {

    }
}

Answer 1

我认为Jakarta Commons Lang库的StringEscapeUtils.escapeHtml（）和unescapeHtml（）方法正是您所寻找的。请参阅http://commons.apache.org/proper/commons-lang/javadocs/api-3.1/org/apache/commons/lang3/StringEscapeUtils.html。

Answer 2

在这里，您只需在应用程序的lib jsoup中添加jar文件，然后使用此代码。

import org.jsoup.Jsoup;

public class Encoder {
    public static void main(String args[]) {
        String s = Jsoup.parse("&lt;Fran&ccedil;ais&gt;").text();
        System.out.print(s);
    }
}

链接下载jsoup：http://jsoup.org/download

Answer 3

java.net.URLDecoder仅处理application/x-www-form-urlencoded MIME格式（例如“％20”代表空格），而不是HTML character entities。我不认为Java平台上有任何东西。您可以编写自己的实用程序类来进行转换，例如this one。

Answer 4

URL解码器只应用于解码来自html表单生成的URL中的字符串，这些表单位于“application / x-www-form-urlencoded”mime类型中。这不支持html字符。

search我在Translate库中找到HTML Parser课后。

Answer 5

您可以使用类org.apache.commons.lang.StringEscapeUtils：

String s = StringEscapeUtils.unescapeHtml("Happy &amp; Sad")

它正在发挥作用。

Answer 6

我不知道使用标准库的任何方法。但我知道并使用这个处理html实体的类。

“HTMLEntities是一个开源Java类，包含一组静态方法（htmlentities，unhtmlentities，...），用于将特殊字符和扩展字符转换为HTML权限，反之亦然。”

http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=htmlentities

Answer 7

正如@jem建议的那样，可以使用jsoup。

使用jSoup 1.8.3，可以使用保留原始html的方法 Parser.unescapeEntities 。

import org.jsoup.parser.Parser;
...
String html = Parser.unescapeEntities(original_html, false);

似乎在之前的某些版本中，此方法不存在。

Answer 8

或者您可以使用unescapeHtml4：

    String miCadena="GU&#205;A TELEF&#211;NICA";
    System.out.println(StringEscapeUtils.unescapeHtml4(miCadena));

此代码打印行： GUÍATELEFÓNICA

使用Java标准库将HTML字符转换回文本

8 个答案: