当我使用JSOUP解析HTML时,为什么会输出西里尔字母作为问号?

时间:2018-08-16 12:12:46

标签: java character-encoding jsoup

我正在尝试解析网站的HTML,并且我将jsoup用于该任务。

当我使用解析方法Jsoup类时,HTML的输出西里尔字母会显示为问号(?)。

下面是我的代码:

Document doc = Jsoup.parse(new URL(url).openStream(), "UTF-8", url);
doc.outputSettings().escapeMode(EscapeMode.xhtml);
System.out.println(doc.toString());

当我运行上面的代码时,来自HTML的西里尔字母输出如下:

<meta name="description" content="Watch, ?? ???? ?? 195.00??. ??????? ?? ANALOG - DIGITAL. ?? ?????? ??????? Casio. ?????????? ???????? ?? CASIO">

问题似乎与jsoup以及它如何读取UTF-8编码的HTML有关,因为当我使用BufferedReader解析下载HTML时,它将正确保存输出的cyrylic字母。

我希望输出的是原状,而不是问号。我该怎么办?

0 个答案:

没有答案