使用Jsoup解析后为什么内容不一样

时间:2015-01-29 12:12:21

标签: java parsing jsoup

我正在尝试使用JSOUP解析this网址。我正在解析doc类似于unicode格式而不是实际数据,而我正在解析this url根据需要给出了正确的印地文本。我使用下面的代码来解析URl。 BTW网址托管在我的网站上。服务器上的文本文件有问题吗?我无法弄清楚这一点。

    Document doc = Jsoup
            .connect(
                    "hindi-stories.kratav.com/content/social_aalha.html")
            .userAgent("Mozilla").timeout(15 * 1000).get(); 

1 个答案:

答案 0 :(得分:1)

我检查了第一个URL的源代码,没有指定编码。而第二个有元:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

尝试使用指定字符集的方法解析第一个URL,即:

Document document = Jsoup.parse(new URL(url).openStream(), "UTF-16", url);