在我的应用程序中,我需要解析一个网站并将一些数据从ir保存到数据库中。我正在使用HttpClient来获取页面内容。我的代码如下所示:
HttpClient client = new DefaultHttpClient();
System.out.println(doc.getUrl());
HttpGet contentGet= new HttpGet(siteUrl + personUrl);
HttpResponse response = client.execute(contentGet);
String html = convertStreamToString(response.getEntity().getContent());
/*
parse the page
*/
/***********************************************************************/
public static String convertStreamToString(InputStream is) throws Exception {
BufferedReader reader = new BufferedReader(new InputStreamReader(is));
StringBuilder sb = new StringBuilder();
String line = null;
while ((line = reader.readLine()) != null) {
sb.append(line + "\n");
}
is.close();
return sb.toString();
}
我在循环中这样做 - 我尝试获取某些页面的内容(它们的结构是相同的)。有时它工作正常,但不幸的是,在很多情况下我的反应是一系列类似的垃圾谎言:
�=�v7���9�Hdz$�d7/�$�st��؎I��X^�$A6t_D���!gr�����C^��k@��MQ�2�d�8�]
我 我不知道问题出在哪里,请帮助我。
我已经显示了我收到的所有回复的标题。对于正确的,有:
Server : nginx/1.0.13
Date : Sat, 23 Mar 2013 21:50:31 GMT
Content-Type : text/html; charset=utf-8
Transfer-Encoding : chunked
Connection : close
Vary : Accept-Encoding
Expires : Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control : no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma : no-cache
Set-Cookie : pfSC=1; path=/; domain=.profeo.pl
Set-Cookie : pfSCvp=deleted; expires=Thu, 01-Jan-1970 00:00:01 GMT; path=/; domain=.profeo.pl
对于不正确的:
Server : nginx/1.2.4
Date : Sat, 23 Mar 2013 21:50:33 GMT
Content-Type : text/html
Transfer-Encoding : chunked
Connection : close
Set-Cookie : pfSCvp=3cff2422fd8f9b6e57e858d3883f4eaf; path=/; domain=.profeo.pl
Content-Encoding : gzip
还有其他建议吗?我的猜测是这个gzip编码在这里是一个问题,但我该怎么办呢?
答案 0 :(得分:2)
这可能与某些网站在响应中使用不同于JVM默认值的字符编码有关。要将原始字节流(如InputStreams提供的字节流)转换为字符流(或字符串),您必须选择字符编码。 HTTP响应可以使用不同的编码,但它们通常会告诉您它们正在使用的编码。您可以通过查找HttpResponse的“Content-Encoding”标头手动执行此操作,但您的库提供了执行此操作的实用程序,因为这是常见的需求。它出现在EntityUtils类中,您可以这样使用它:
String html = EntityUtils.toString(response.getEntity());
你必须添加
import org.apache.http.util.EntityUtils;
到文件的顶部,以便工作。
如果这没有帮助,另一种可能性是您检索的某些URL是二进制的,而不是文本的,在这种情况下,您尝试执行的操作没有意义。如果是这种情况,您可以通过检查Content-Type
标题来尝试区分文本响应和二进制响应,如下所示:
boolean isTextual = response.getFirstHeader("Content-Type").getValue().startsWith("text");
新材料:
在查看您添加到问题中的HTTP标头后,我最好的猜测是这是由响应的gzip压缩引起的。您可以在this question中找到有关如何处理该问题的更多信息,但简短版本是您应该尝试使用ContentEncodingHttpClient而不是DefaultHttpClient。
另一个编辑:ContentEncodingHttpClient现已弃用,您应该使用DecompressingHttpClient代替。
答案 1 :(得分:0)
您需要一个不使用压缩的httpclient。
我使用这个HttpClientBuilder.create().disableContentCompression().build()
httpclient