“<”不会发生HTML解析但发生了“>”

时间:2012-02-13 09:29:35

标签: html parsing

我有一个应用程序,我必须解析html内容

<html><body>
<html><body><html><body>
<html><body><font color=gray>/ns0:messType1/ItTransaction/items/<font color=blue>
<b>e1</b><font color=black>=<html><body><font color=#808000><b>const</b></font>(value=>)
<br><html><body><font color=gray>/ns0:messType1/ItTransaction/items/<font color=blue>
<b>e2</b><font color=black>=<html><body><font color=#808000><b>const</b></font>(value=<)
<br></html></body>
</html></body></html></body>
</html></body>

在使用方法getEditorKit().read(new StringReader(str), doc, 0);解析上述html文档时,它返回<值的空字符串,但对于>,它返回的适当值为>。< / p>

为什么会发生这种情况?如何获得我在值字段中传递的<

1 个答案:

答案 0 :(得分:1)

除了给定的HTML无效之外,问题是<是HTML中的特殊字符,表示标记的开头。 &lt;是在HTML中对<进行编码的正确方法。

当然,这是假设您可以控制正在处理的HTML内容。如果不这样做,可能会有点困难。