我的初始html是
<!DOCTYPE html>
<html xmlns:og="http://opengraphprotocol.org/schema/" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en" class="SAF" id="global-header-light">
<head>
</head>
<body>
<div style="background-image: url(http://aka-cdn-ns.adtech.de/rm/ads/23274/HPWomenLOFT_1381687318.jpg);background-repeat: no-repeat;-webkit-background-size: 1001px 2059px; height: 2059px; width: 1001px; text-align: center; margin: 0 auto;">
<div style="height:2058px; padding-left:0px; padding-top:36px;">
<iframe style="height:90px; width:728px;" />
</div>
</div>
</body>
</html>
在我使用JSOUP的doc.html()之后,JSOUP解析器在Iframe元素的末尾添加了额外的编码值。更改的html是
<!DOCTYPE html>
<html xmlns:og="http://opengraphprotocol.org/schema/" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en" class="SAF" id="global-header-light">
<head>
<style>
</style>
</head>
<body>
<div style="background-image: url(aol.jpeg); background-repeat: no-repeat;-webkit-background-size:90720;height:720; width:90; text-align: center; margin: 0 auto;">
<div style="height:450; width:100; padding-left:681px; padding-top:200px;">
<iframe style="height:1050px; width:300px;"></iframe> ***</div> </div> </body> </html>***
</div>
</div>
</body>
</html>
请帮我解决这个问题。
由于 斯瓦拉杰
答案 0 :(得分:0)
如果使用xmlParser
解析它,则不会添加其他值。例如:
String html = "<!DOCTYPE html>" +
"<html xmlns:og=\"http://opengraphprotocol.org/schema/\" xmlns:fb=\"http://www.facebook.com/2008/fbml\" xmlns=\"http://www.w3.org/1999/xhtml\" xml:lang=\"en\" lang=\"en\" class=\"SAF\" id=\"global-header-light\">" +
"<head></head>" +
"<body>" +
"<div style=\"background-image: url(http://aka-cdn-ns.adtech.de/rm/ads/23274/HPWomenLOFT_1381687318.jpg);background-repeat: no-repeat;-webkit-background-size: 1001px 2059px; height: 2059px; width: 1001px; text-align: center; margin: 0 auto;\">" +
"<div style=\"height:2058px; padding-left:0px; padding-top:36px;\">" +
"<iframe style=\"height:90px; width:728px;\" /></div></div></body></html>";
Document doc = Jsoup.parse(html, "", Parser.xmlParser());
System.out.println(doc);
将输出:
<!DOCTYPE html>
<html xmlns:og="http://opengraphprotocol.org/schema/" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en" class="SAF" id="global-header-light">
<head></head>
<body>
<div style="background-image: url(http://aka-cdn-ns.adtech.de/rm/ads/23274/HPWomenLOFT_1381687318.jpg);background-repeat: no-repeat;-webkit-background-size: 1001px 2059px; height: 2059px; width: 1001px; text-align: center; margin: 0 auto;">
<div style="height:2058px; padding-left:0px; padding-top:36px;">
<iframe style="height:90px; width:728px;"></iframe>
</div>
</div>
</body>
</html>
<强>更新强>
您可以先将远程文件作为String获取,然后正常使用我的其余代码:
String url = request.getParameter("htmluri").trim();
System.out.println("Fetching %s..."+url);
String xml = Jsoup.connect(url).get().toString();
Document doc = Jsoup.parse(xml, "", Parser.xmlParser());
Parser.xmlParser()
是Jsoup的一部分(请参阅http://jsoup.org/apidocs/org/jsoup/parser/Parser.html)。