jsoup输出编码问题

时间:2012-01-09 18:33:51

标签: java jsoup

我使用JSoup来解析gb2312 charset页面: http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html

源代码:

String testURL="http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html";
Document doc=Jsoup.connect(testURL).get();          
System.out.println(
    doc.select("div").html()
);

这给出了以下输出:

1:? 2:� 3:� 4:—

我希望与页面源代码相同:

1:· 2:慒 3:啰 4:—

有没有办法做到这一点?

2 个答案:

答案 0 :(得分:2)

尝试在打印前设置doc.outputSettings().escapeMode(EscapeMode.xhtml)或更改输出charset

另见(微不足道)documentation for EscapeMode

答案 1 :(得分:0)

尝试编码为" MS932"或" SHIFT-JIS"。这将解决您的问题。 你也可以阅读html页面的charset类型,并在解析文件时设置。