我有一个像这样的节点
<div>> something <</div>
我需要像这样得到div元素的文本
> something <
我从.text()方法得到什么,输出是
> something <
在BeautifulSoup中,它将返回> something <
未编码的输出。
如何从JSoup获取未转换的文本?
答案 0 :(得分:0)
doc = Jsoup.connect(url).get();
doc.outputSettings().escapeMode(Entities.EscapeMode.extended);
OR
使用Apache Commons StringEscapeUtils.unescapeHtml4():
Unescapes a string containing entity escapes to a string containing the actual Unicode characters corresponding to the escapes. Supports HTML 4.0 entities.