如何使用编码来学习doc文本

时间:2013-07-03 09:13:48

标签: jsoup

我有一个像这样的节点

<div>&gt; something &lt;</div>

我需要像这样得到div元素的文本

&gt; something &lt;

我从.text()方法得到什么,输出是

> something <

在BeautifulSoup中,它将返回&gt; something &lt;未编码的输出。

如何从JSoup获取未转换的文本?

1 个答案:

答案 0 :(得分:0)

doc = Jsoup.connect(url).get();
doc.outputSettings().escapeMode(Entities.EscapeMode.extended);

OR

使用Apache Commons StringEscapeUtils.unescapeHtml4()

Unescapes a string containing entity escapes to a string containing the actual Unicode characters corresponding to the escapes. Supports HTML 4.0 entities.