HTML特殊字符解析

时间:2010-11-02 13:05:25

标签: java html html-parsing web-scraping

我正在寻找一个解析所有HTML特殊字符的java类。 我想这是一个常见问题,但我现在找不到快速解决方案。

我想要的是:

input: thè --> output: thè
input: »
input: &lraquo;
...

你知道对我有用吗?

2 个答案:

答案 0 :(得分:0)

你用Google搜索了吗? “java HTML标记实体解析器”的第一个链接指的是 html text extractor

这似乎是你需要的。

此外,您可能想要检查javax.swing.JLabel(和另一个swing文本组件')渲染器。

答案 1 :(得分:0)

尝试使用StringEscapeUtils实用程序类。检查文档中的StringEscapeUtils.unescapeHtml()方法。

文档:

http://commons.apache.org/lang/api-release/org/apache/commons/lang/StringEscapeUtils.html

在此下载:

http://commons.apache.org/lang/