用于Android的unescaping HTML实体中的StringEscapeUtils.unescapeHtml()问题

时间:2010-10-13 19:43:02

标签: html android entity stringescapeutils lang

这就是我正在做的事情:

public static String htmlToText(String inString)
{
String noentity=StringEscapeUtils.unescapeHtml(inString);
return noentity;
}

这是我在调用它的地方:

String html = "<html><body>string 1<br />&#8212;<p>string 2</p></body></html>";
    String nohtml = Utility.htmlToText(html);
    Log.i("NON HTML STRING:",nohtml);

这是日志中的输出:

10-13 12:38:12.121: INFO/NON HTML STRING:(300): <html><body>string 1<br />â<p>string 2</p></body></html>

根据http://www.w3.org/TR/html4/sgml/entities.html &#8212;的引用,应该替换为“ - ”(这是我期望的输出)而不是“â”(这不是我想要的)。 / p>

起初我使用的是JSoup,同样的事情正在发生。认为它是一个bug,我切换到org.apache.commons.lang,同样的事情正在发生。

其他人都知道这里发生了什么?我错过了一些明显的东西吗?

1 个答案:

答案 0 :(得分:0)

解决.....

Logcat中的输出存在问题。

断点显示实际输出是正确的。

这是Logcat工具第二次让我偏离正轨......