我一直在网上寻找并试图理解。我正在解析一些在iso-8859-1中编码的html文件。解析后,我希望所有输出都是标准的java编码(utf-something)
我是这样做的:
currentDocument = Jsoup.parse(new File("thing.htm", "ISO-8859-1");
Element elt = currentDocument.getElementById("bim");
String title = elt.select("h1,h2,h3,h4,h5,h6").first().text();
System.out.println(title);
文件中的字符串是:
G18 Legemiddeløkonomi – pasientens venn eller fiende
输出结果为:
G18?Legemiddel?konomi ? pasientens venn eller fiende
我想我在某处做错了,因为我知道Jsoup可以做到这一点我只是不知道它是什么。顺便说一下,我在MacOSX上。 有人可以帮帮我吗?
THX
答案 0 :(得分:0)
好的,经过进一步的调查并感谢@Esailija,我发现我的控制台没有以UTF-8输出,这是通过以下方式解决的:
PrintStream stdout = new PrintStream(System.out, true, "UTF-8");
System.setOut(stdout);
我也使用过:currentDocument.outputSettings().charset("UTF-8");
但我不确定这是否有用。