我正在尝试从Android应用中的WebView中提取一些网页源代码。我已经设法使用了这个:http://lexandera.com/2009/01/extracting-html-from-a-webview/
加上这个以使其在KitKat之后起作用:
if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.KITKAT) {
webView.evaluateJavascript(
"(function() { return ('<html>'+document.getElementsByTagName('html')[0].innerHTML+'</html>'); })();",
new ValueCallback<String>() {
@Override
public void onReceiveValue(String html) {
outputViewer.setText(html);
}
});
}else{
webView.loadUrl("javascript:window.HTMLOUT.showHTML" +
"('<html>'+document.getElementsByTagName('html')[0].innerHTML+'</html>');");
}
现在,问题是非kitkat版本正好返回我想要的内容。然而,KitKat版本返回了代码的转义版本,如下所示:
"\u003Chtml>\u003Chead>\n\t\u003Cmeta charset=\"UTF-8\">\n\t\u003Cmeta http-equiv=\"X-UA-Compatible\" content=\"IE=edge\">\n\t\u003Clink rel=\"profile\" href=\"http://gmpg.org/xfn/11\">\n\t\u003Clink rel=\"pingback\"
有没有直接的方法来在Android上取消该字符串?
麦克
答案 0 :(得分:3)
我遇到了同样的问题,看起来它已经被java转义了,所以因为我已经使用了apache commons lang这对我有用:
str = StringEscapeUtils.unescapeJava(str);
前
"\u003Chtml lang=\"en\">\u003Chead> \u003Cmeta content=\"width=device-width,minimum-scale=1.0\"...
后
"<html lang="en"><head> <meta content="width=device-width,minimum-scale=1.0"...
我从以下代码中获取了代码: