我正在尝试使用JSOUP解析this网址。我正在解析doc类似于unicode格式而不是实际数据,而我正在解析this url根据需要给出了正确的印地文本。我使用下面的代码来解析URl。 BTW网址托管在我的网站上。服务器上的文本文件有问题吗?我无法弄清楚这一点。
Document doc = Jsoup
.connect(
"hindi-stories.kratav.com/content/social_aalha.html")
.userAgent("Mozilla").timeout(15 * 1000).get();
答案 0 :(得分:1)
我检查了第一个URL的源代码,没有指定编码。而第二个有元:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
尝试使用指定字符集的方法解析第一个URL,即:
Document document = Jsoup.parse(new URL(url).openStream(), "UTF-16", url);