Jsoup解析以获得包括大于(>)和小于(<)符号的文本

时间:2017-03-21 17:15:07

标签: jsoup

html中的文字如<a>"There is a nothing special <<string>> haha"</a>

我希望获得完整的文字,包括<<>>,因此输出看起来像There is a nothing special <<string>> haha

我做完了

Elements e = element.select("a");
String text = e.text();

但输出为There is a nothing special <> haha

如果打印e.html(),则为

There is a nothing special &lt;
<string>
&gt;haha
</string>

我该如何解决?

1 个答案:

答案 0 :(得分:0)

输入无效HTML。 jsoup遵循HTML5规范中定义的关于如何解析这种不符合要求的输入的规则。您最终得到的是e.html()的输出 这种转换是有损的,并且在使用jsoup时无法检索原始输入。

附注:字符串There is a nothing special <<string>> haha应在HTML文档中进行编码:There is a nothing special &lt;&lt;string&gt;&gt; haha