在网页中,“我们为什么不”如下:
但是当我解析网页并将其保存到文本文件时,它会在eclipse下变成这样:
为什么不做我们
有关我的实施的更多信息:
网页为:utf-8
我使用jSoup进行解析,文件保存为txt。
我使用FileWriter f = new FileWriter()
写入文件。
更新: 我实际上是通过将eclipse的编码改为utf-8来解决eclipse中的显示问题。
答案 0 :(得分:2)
FileWriter是一个使用默认当前平台编码的实用程序类。这是不可移植的,可能不正确。
BufferedWriter f = new BufferedWriter(New OutputStreamWriter(
new FileOutputStream(file), StandardCharsets.UTF_9));
f,Write("\uFEFF"); // Redundant BOM character might be written to be sure
// the text is read as UTF-8
...