我使用Jsoup的parseBodyFragment()
和parse()
方法来处理由脚本,noscript和样式标记组成的代码块。目标不是清理它们 - 只需select()
,分析并输出它们。 select()
部分效果很好。
然而,问题在于它会自动编码src属性的url参数。所以,当输入是这样的时候:
<noscript>
<img height="1" width="1" style="display:none;" alt="" src="https://something.orother.com/i/cnt?txn_id=123&p_id=123"/>
</noscript>
我最后通过outerHTML()
方法从Jsoup返回了这个:
<noscript>
<img height="1" width="1" style="display:none;" alt="" src="https://something.orother.com/i/cnt?txn_id=123&p_id=123"/>
</noscript>
问题是url参数中的标准&符号(&amp;)正在编码并输出为&
。有没有办法禁用它?
我正在寻找一种方法来获取所选元素的html而不进行修改。谢谢!
更新(2016年2月23日):澄清问题。另外,在Github repo上发现了一个描述问题的问题:https://github.com/jhy/jsoup/issues/372。看起来这可能是不可能的。