我使用jsoup来抓取HTML。我在从以下类型的html标签中提取信息时遇到问题:
<span class="some">‭‭78‬‬</span>
它应该只是像
<span class="some">78</span>
如何从字符串中删除HTML实体?
答案 0 :(得分:0)
我不熟悉jsoup,但如果它是&#34;正常&#34; HTML DOM Parser返回&#34;标准&#34; HTML DOM,然后你想要的是不可能的。问题是,一旦构建了DOM,它就无法区分正常编码的字符和表示为实体的字符。
例如:<span>A</span>
和<span>A</span>
被视为完全相同,并且无法在DOM中区分一次 - 两个都是span
元素,其中包含带有文本{{的文本节点1}}。
所以你可以做的是遍历所有文本节点并搜索替换这些字符(而不是实体):
A
如果您需要区分原始字符和实体,那么您需要使用不同的非DOM(例如基于事件的)HTML解析器。
答案 1 :(得分:-1)
http://jsoup.org/apidocs/org/jsoup/select/Elements.html
按Control + F并查看“删除”。