Java JSoup库element.text()将''作为#160 ASCII字符返回

时间:2012-01-18 09:50:08

标签: java html parsing jsoup

我最近碰到了 JSoup library 1.3.3 的一个奇怪的行为(很老,我知道)。

解析文本节点时,通过调用此元素上的.text()#160 ASCII char 来解析&nbsp;实体转换。< / p>

你有没有经历过这个?你认为这是正确的行为吗? (检查Jsoup repo是否有错误,没有找到)

谢谢,

1 个答案:

答案 0 :(得分:3)

不间断的空间与普通空间相同。在ISO-8859- *,Windows-1252中,非中断空间为0xA0或160十进制,在Unicode中为U + 00A0(在UTF-8中,它被编码为0xC2 0xA0)。因此,根据您的确切编码,这是正确的行为。