我正在尝试解析网站的HTML,并且我将jsoup用于该任务。
当我使用解析方法Jsoup类时,HTML的输出西里尔字母会显示为问号(?)。
下面是我的代码:
Document doc = Jsoup.parse(new URL(url).openStream(), "UTF-8", url);
doc.outputSettings().escapeMode(EscapeMode.xhtml);
System.out.println(doc.toString());
当我运行上面的代码时,来自HTML的西里尔字母输出如下:
<meta name="description" content="Watch, ?? ???? ?? 195.00??. ??????? ?? ANALOG - DIGITAL. ?? ?????? ??????? Casio. ?????????? ???????? ?? CASIO">
问题似乎与jsoup以及它如何读取UTF-8编码的HTML有关,因为当我使用BufferedReader解析下载HTML时,它将正确保存输出的cyrylic字母。
我希望输出的是原状,而不是问号。我该怎么办?