应用错误收集

我正在尝试解析网站的HTML，并且我将jsoup用于该任务。

当我使用解析方法Jsoup类时，HTML的输出西里尔字母会显示为问号（？）。

下面是我的代码：

Document doc = Jsoup.parse(new URL(url).openStream(), "UTF-8", url);
doc.outputSettings().escapeMode(EscapeMode.xhtml);
System.out.println(doc.toString());

当我运行上面的代码时，来自HTML的西里尔字母输出如下：

<meta name="description" content="Watch, ?? ???? ?? 195.00??. ??????? ?? ANALOG - DIGITAL. ?? ?????? ??????? Casio. ?????????? ???????? ?? CASIO">

问题似乎与jsoup以及它如何读取UTF-8编码的HTML有关，因为当我使用BufferedReader解析下载HTML时，它将正确保存输出的cyrylic字母。

我希望输出的是原状，而不是问号。我该怎么办？

当我使用JSOUP解析HTML时，为什么会输出西里尔字母作为问号？

0 个答案: