正如标题所说的那样。
非常感谢!
答案 0 :(得分:31)
一个非常常见的错误是无法正确地将HTTP响应从字节转换为字符。为此,您必须知道响应的字符编码。希望这被指定为“Content-Type”参数中的参数。但是将它放在正文中,作为meta
标记中的“http-equiv”属性也是一种选择。
因此,将页面正确加载到String
非常复杂,甚至像HttpClient这样的第三方库也不提供通用解决方案。
这是一个简单的实现,可以处理最常见的情况:
URL url = new URL("http://stackoverflow.com/questions/1381617");
URLConnection con = url.openConnection();
Pattern p = Pattern.compile("text/html;\\s+charset=([^\\s]+)\\s*");
Matcher m = p.matcher(con.getContentType());
/* If Content-Type doesn't match this pre-conception, choose default and
* hope for the best. */
String charset = m.matches() ? m.group(1) : "ISO-8859-1";
Reader r = new InputStreamReader(con.getInputStream(), charset);
StringBuilder buf = new StringBuilder();
while (true) {
int ch = r.read();
if (ch < 0)
break;
buf.append((char) ch);
}
String str = buf.toString();
答案 1 :(得分:4)
您仍然可以使用org.apache.commons.io.IOUtils
简化它:
URL url = new URL("http://stackoverflow.com/questions/1381617");
URLConnection con = url.openConnection();
Pattern p = Pattern.compile("text/html;\\s+charset=([^\\s]+)\\s*");
Matcher m = p.matcher(con.getContentType());
/* If Content-Type doesn't match this pre-conception, choose default and
* hope for the best. */
String charset = m.matches() ? m.group(1) : "ISO-8859-1";
String str = IOUtils.toString(con.getInputStream(), charset);
答案 2 :(得分:1)
我用这个:
BufferedReader bufferedReader = new BufferedReader(
new InputStreamReader(
new URL(urlToSeach)
.openConnection()
.getInputStream() ));
StringBuilder sb = new StringBuilder();
String line = null;
while( ( line = bufferedReader.readLine() ) != null ) {
sb.append( line ) ;
sb.append( "\n");
}
.... in finally....
buffer.close();
大部分时间都有效。