我有一些html,其中一些字符编码为& #227; (我在&和#之间添加了一个空格以便不被编码)和i当我调用 Jsoup.parse(“N *ã O”); ,它会转换为Não。
我尝试了以下选项:
InputStream is = new ByteArrayInputStream(msgHtml.getBytes("UTF-8"));
BufferedReader r = new BufferedReader(new InputStreamReader(is, "UTF-8"), 4*1024);
StringBuilder total = new StringBuilder();
String line = "";
while ((line = r.readLine()) != null) {
total.append(line);
}
r.close();
is.close();
String html = total.toString();
org.jsoup.nodes.Document doc = Jsoup.parse(html);
doc.outputSettings().charset("ISO-8859-1")
//doc.outputSettings().charset("UTF-8")
我可以避免它并强制Jsoup忽略这些编码吗?
提前感谢。