阅读网站来源: 字符

时间:2013-03-20 00:38:55

标签: java string url inputstream bufferedreader

我正在尝试从浏览器中读取源代码,但是当代码中包含ã,á,à,õ等字符时,我得到了。。

我尝试在读取行上应用java.nio.Charset.encode,但没有结果:同样的事情发生。

我的代码是:

URLConnection connection = ...;
BufferedReader reader = new BufferedReader(connection.getInputStream());
String s = null;

while ((s = reader.readLine()) != null) {
  // got new source line...
}

我正在尝试阅读的网站是this one(PT-BR)。

1 个答案:

答案 0 :(得分:2)

根据元标记,该页面上的字符集是ISO-8859-1。尝试使用:

Scanner scanner = new Scanner(connection.getInputStream(), "ISO-8859-1");