如何阻止Jsoup编码URL参数?

时间:2017-02-22 17:55:21

标签: html jsoup html-parsing

我使用Jsoup的parseBodyFragment()parse()方法来处理由脚本,noscript和样式标记组成的代码块。目标不是清理它们 - 只需select(),分析并输出它们。 select()部分效果很好。

然而,问题在于它会自动编码src属性的url参数。所以,当输入是这样的时候:

<noscript>
<img height="1" width="1" style="display:none;" alt="" src="https://something.orother.com/i/cnt?txn_id=123&p_id=123"/>
</noscript>

我最后通过outerHTML()方法从Jsoup返回了这个:

<noscript>
<img height="1" width="1" style="display:none;" alt="" src="https://something.orother.com/i/cnt?txn_id=123&amp;p_id=123"/>
</noscript>

问题是url参数中的标准&符号(&amp;)正在编码并输出为&amp;。有没有办法禁用它?

我正在寻找一种方法来获取所选元素的html而不进行修改。谢谢!

更新(2016年2月23日):澄清问题。另外,在Github repo上发现了一个描述问题的问题:https://github.com/jhy/jsoup/issues/372。看起来这可能是不可能的。

0 个答案:

没有答案