无法使用Jsoup获取DOM视图html页面

时间:2016-04-23 13:04:32

标签: java jsoup

当我获取页面时

 public void getHtml() throws IOException {
    String html = Jsoup.connect("http://vp.by/").get().html();
    System.out.println(html);
}

Jsoup回报我

<html>
<head></head>
<body></body>
</html>

如何在DOM视图中获取完整页面? (google.com,facebook.com等网站正常运行)

1 个答案:

答案 0 :(得分:0)

这里的问题是vp.by正在做一些事情来检测它认为无效的浏览器请求的奇数连接。例如,如果你做curl -v -X GET http://vp.by,你将得到一个没有内容的200 OK响应。添加User-Agent标头,我们可以更好地模仿有效的基于浏览器的请求。

尝试以下方法:

public void getHtml() throws IOException {
    String html = Jsoup
            .connect("http://vp.by/")
            .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36")
            .get().html();
    System.out.println(html);
}