阅读网页内容

时间:2011-05-31 14:13:35

标签: java character-encoding inputstreamreader

您好 我想阅读包含使用java的德语字符的网页的内容,不幸的是,德语字符显示为奇怪的字符。 请帮忙 这是我的代码:

String link = "some german link";

            URL url = new URL(link);
            BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
            String inputLine;
            while ((inputLine = in.readLine()) != null) {
                System.out.println(inputLine);
            }

4 个答案:

答案 0 :(得分:6)

您需要为InputStreamReader指定字符集,例如

InputStreamReader(url.openStream(), "UTF-8") 

答案 1 :(得分:2)

您必须设置正确的编码。您可以在HTTP标头中找到编码:

Content-Type: text/html; charset=ISO-8859-1

这可能会在(X)HTML文档中被覆盖,请参阅HTML Character encodings

我可以想象你必须考虑许多不同的附加问题来解析网页错误。但是有不同的HTTP客户端库可用于Java,例如org.apache.httpcomponents。代码如下所示:

DefaultHttpClient httpclient = new DefaultHttpClient();
HttpGet httpGet = new HttpGet("http://www.spiegel.de");

try
{
  HttpResponse response = httpclient.execute(httpGet);
  HttpEntity entity = response.getEntity();
  if (entity != null)
  {
    System.out.println(EntityUtils.toString(entity));
  }
}
catch (ClientProtocolException e) {e.printStackTrace();}
catch (IOException e) {e.printStackTrace();}

这是maven神器:

<dependency>
  <groupId>org.apache.httpcomponents</groupId>
  <artifactId>httpclient</artifactId>
  <version>4.1.1</version>
  <type>jar</type>
  <scope>compile</scope>
</dependency>

答案 2 :(得分:0)

尝试设置Charset。

new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName("UTF-8") ));

答案 3 :(得分:0)

首先,验证您使用的字体是否支持您尝试显示的特定德语字符。许多字体都不包含所有字符,当它是一个简单的“缺少字符”问题时,寻找其他原因是一件很大的痛苦。

如果这不是问题,那么您输入或输出的字符集都是错误的。字符集确定表示字符的数字如何映射到字形(或表示字符的图片)。 Java通常在内部使用UTF-8;所以输出流可能不是问题。检查输入流。