使用Jsoup,我能够提取大多数网站页面源代码(右键单击网页并选择“查看页面源代码”)。但是对于任何youtube视频页面,我都无法提取页面源代码,没有提供适当的页面源代码。尝试了以下方法,但提取失败。
public class App {
public static void main(String[] args) throws IOException {
String webUrl = "https://www.youtube.com/watch?v=Zu6o23Pu0Do";
Document doc = Jsoup.connect(webUrl)
.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")
.get();
System.out.println(doc);
}
}
任何人都可以提出任何建议来解决此问题?
我得到的输出如下:
答案 0 :(得分:1)
您没有设置用户代理,该代理可能会触发网站的防刮擦措施。我将假设问题是您在运行此连接时超时。尝试使用以下用户代理,并从connect()中查看它是否对您有用。
.userAgent(“ Mozilla / 5.0(Macintosh; Intel Mac OS X 10_14_2)AppleWebKit / 537.36(KHTML,例如Gecko)Chrome / 71.0.3578.98 Safari / 537.36”)