Question

我使用Jsoup的parseBodyFragment()和parse()方法来处理由脚本，noscript和样式标记组成的代码块。目标不是清理它们 - 只需select()，分析并输出它们。 select()部分效果很好。

然而，问题在于它会自动编码src属性的url参数。所以，当输入是这样的时候：

<noscript>
<img height="1" width="1" style="display:none;" alt="" src="https://something.orother.com/i/cnt?txn_id=123&p_id=123"/>
</noscript>

我最后通过outerHTML()方法从Jsoup返回了这个：

<noscript>
<img height="1" width="1" style="display:none;" alt="" src="https://something.orother.com/i/cnt?txn_id=123&amp;p_id=123"/>
</noscript>

问题是url参数中的标准＆符号（＆amp;）正在编码并输出为&。有没有办法禁用它？

我正在寻找一种方法来获取所选元素的html而不进行修改。谢谢！

更新（2016年2月23日）：澄清问题。另外，在Github repo上发现了一个描述问题的问题：https://github.com/jhy/jsoup/issues/372。看起来这可能是不可能的。