使用Jsoup加载包含UTF-8字符的HTML:适用于某些网站,但不适用于其他网站?

时间:2017-11-22 23:12:01

标签: java html http utf-8 jsoup

我对Jsoup有一个奇怪的问题:我使用此函数从网站检索UTF-8编码的HTML:

MethodBase.GetMethodFromHandle

现在我拿一些url-String并执行此操作来打印出html:

public static Document getDocument(String url) {

        Document doc = null;

        try {

            doc = Jsoup.parse(new URL(url).openStream(), "UTF-8", url);
            doc.outputSettings().charset("UTF-8"); 
        } catch (IOException e) {
            e.printStackTrace();
        } 

        return doc;
    }

我尝试了这个包含俄语字符的不同网站,这真的令人困惑:对于某些网站,它的工作原理(html看起来很好),对于其他网站,所有俄语字符都被 取代。但是我使用的代码在两种情况下完全相同! 例如,使用“https://mail.ru/”它可以工作,但是“http://monetki.su/”却没有(所有俄语字符都被 取代)!这怎么能取决于网站?

谢谢和问候, 丹尼尔

0 个答案:

没有答案