Question

我正在尝试使用JSOUP解析this网址。我正在解析doc类似于unicode格式而不是实际数据，而我正在解析this url根据需要给出了正确的印地文本。我使用下面的代码来解析URl。 BTW网址托管在我的网站上。服务器上的文本文件有问题吗？我无法弄清楚这一点。

    Document doc = Jsoup
            .connect(
                    "hindi-stories.kratav.com/content/social_aalha.html")
            .userAgent("Mozilla").timeout(15 * 1000).get();

Answer 1

我检查了第一个URL的源代码，没有指定编码。而第二个有元：

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

尝试使用指定字符集的方法解析第一个URL，即：

Document document = Jsoup.parse(new URL(url).openStream(), "UTF-16", url);

使用Jsoup解析后为什么内容不一样

1 个答案: