使用Jsoup提取youtube页面源时遇到的问题

时间:2020-01-01 03:07:44

标签: jsoup webscarab

使用Jsoup,我能够提取大多数网站页面源代码(右键单击网页并选择“查看页面源代码”)。但是对于任何youtube视频页面,我都无法提取页面源代码,没有提供适当的页面源代码。尝试了以下方法,但提取失败。

public class App {
  public static void main(String[] args) throws IOException {

    String webUrl = "https://www.youtube.com/watch?v=Zu6o23Pu0Do";
    Document doc = Jsoup.connect(webUrl)
            .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")
            .get();

    System.out.println(doc);

 }
}

任何人都可以提出任何建议来解决此问题?

我得到的输出如下:

sample output

1 个答案:

答案 0 :(得分:1)

您没有设置用户代理,该代理可能会触发网站的防刮擦措施。我将假设问题是您在运行此连接时超时。尝试使用以下用户代理,并从connect()中查看它是否对您有用。

.userAgent(“ Mozilla / 5.0(Macintosh; Intel Mac OS X 10_14_2)AppleWebKit / 537.36(KHTML,例如Gecko)Chrome / 71.0.3578.98 Safari / 537.36”)