Jsoup解析iso-8859-1文件

时间:2013-04-09 21:13:23

标签: java encoding jsoup iso-8859-1

我一直在网上寻找并试图理解。我正在解析一些在iso-8859-1中编码的html文件。解析后,我希望所有输出都是标准的java编码(utf-something)

我是这样做的:

currentDocument = Jsoup.parse(new File("thing.htm", "ISO-8859-1");
Element elt = currentDocument.getElementById("bim");
String title = elt.select("h1,h2,h3,h4,h5,h6").first().text();
System.out.println(title);

文件中的字符串是:

G18 Legemiddeløkonomi – pasientens venn eller fiende

输出结果为:

G18?Legemiddel?konomi ? pasientens venn eller fiende

我想我在某处做错了,因为我知道Jsoup可以做到这一点我只是不知道它是什么。顺便说一下,我在MacOSX上。 有人可以帮帮我吗?

THX

1 个答案:

答案 0 :(得分:0)

好的,经过进一步的调查并感谢@Esailija,我发现我的控制台没有以UTF-8输出,这是通过以下方式解决的:

PrintStream stdout = new PrintStream(System.out, true, "UTF-8"); 
System.setOut(stdout);

我也使用过:currentDocument.outputSettings().charset("UTF-8");但我不确定这是否有用。