如何从网页转换奇怪的字符?

时间:2014-05-08 20:08:05

标签: java character-encoding

在网页中,“我们为什么不”如下:

enter image description here

但是当我解析网页并将其保存到文本文件时,它会在eclipse下变成这样:

为什么不做我们

有关我的实施的更多信息:

网页为:utf-8 我使用jSoup进行解析,文件保存为txt。 我使用FileWriter f = new FileWriter()写入文件。

更新: 我实际上是通过将eclipse的编码改为utf-8来解决eclipse中的显示问题。

1 个答案:

答案 0 :(得分:2)

FileWriter是一个使用默认当前平台编码的实用程序类。这是不可移植的,可能不正确。

BufferedWriter f = new BufferedWriter(New OutputStreamWriter(
        new FileOutputStream(file), StandardCharsets.UTF_9));
f,Write("\uFEFF"); // Redundant BOM character might be written to be sure 
                   // the text is read as UTF-8
...