jsoup - 如何让它停止编码我的文本

时间:2015-02-12 13:29:02

标签: jsoup

我有一些html,其中一些字符编码为& #227; (我在&和#之间添加了一个空格以便不被编码)和i当我调用 Jsoup.parse(“N *ã O”); ,它会转换为Não

我尝试了以下选项:

InputStream is = new ByteArrayInputStream(msgHtml.getBytes("UTF-8"));

BufferedReader r = new BufferedReader(new InputStreamReader(is, "UTF-8"), 4*1024);
StringBuilder total = new StringBuilder();
String line = "";
while ((line = r.readLine()) != null) {
    total.append(line);
}
r.close();
is.close();
String html = total.toString();

org.jsoup.nodes.Document doc = Jsoup.parse(html);
doc.outputSettings().charset("ISO-8859-1")
//doc.outputSettings().charset("UTF-8")

我可以避免它并强制Jsoup忽略这些编码吗?

提前感谢。

0 个答案:

没有答案