我使用JSoup来解析gb2312 charset页面: http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html
源代码:
String testURL="http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html";
Document doc=Jsoup.connect(testURL).get();
System.out.println(
doc.select("div").html()
);
这给出了以下输出:
1:? 2:� 3:� 4:—
我希望与页面源代码相同:
1:· 2:慒 3:啰 4:—
有没有办法做到这一点?
答案 0 :(得分:2)
尝试在打印前设置doc.outputSettings().escapeMode(EscapeMode.xhtml)
或更改输出charset。
另见(微不足道)documentation for EscapeMode
。
答案 1 :(得分:0)
尝试编码为" MS932"或" SHIFT-JIS"。这将解决您的问题。 你也可以阅读html页面的charset类型,并在解析文件时设置。