当我获取页面时
public void getHtml() throws IOException {
String html = Jsoup.connect("http://vp.by/").get().html();
System.out.println(html);
}
Jsoup回报我
<html>
<head></head>
<body></body>
</html>
如何在DOM视图中获取完整页面? (google.com,facebook.com等网站正常运行)
答案 0 :(得分:0)
这里的问题是vp.by正在做一些事情来检测它认为无效的浏览器请求的奇数连接。例如,如果你做curl -v -X GET http://vp.by,你将得到一个没有内容的200 OK响应。添加User-Agent标头,我们可以更好地模仿有效的基于浏览器的请求。
尝试以下方法:
public void getHtml() throws IOException {
String html = Jsoup
.connect("http://vp.by/")
.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36")
.get().html();
System.out.println(html);
}