Question

我使用jsoup来抓取HTML。我在从以下类型的html标签中提取信息时遇到问题：

<span class="some">&#8237;&#8237;78&#8236;&#8236;</span>

它应该只是像

<span class="some">78‬‬</span>

如何从字符串中删除HTML实体？

Answer 1

我不熟悉jsoup，但如果它是＆＃34;正常＆＃34; HTML DOM Parser返回＆＃34;标准＆＃34; HTML DOM，然后你想要的是不可能的。问题是，一旦构建了DOM，它就无法区分正常编码的字符和表示为实体的字符。

例如：<span>A</span>和<span>A</span>被视为完全相同，并且无法在DOM中区分一次 - 两个都是span元素，其中包含带有文本{{的文本节点1}}。

所以你可以做的是遍历所有文本节点并搜索替换这些字符（而不是实体）：

如果您需要区分原始字符和实体，那么您需要使用不同的非DOM（例如基于事件的）HTML解析器。

Answer 2

按Control + F并查看“删除”。