Jsoup不检索HTML文档的第一部分

时间:2017-11-12 17:54:37

标签: html jsoup vimeo

我希望使用Jsoup提取和打印Vimeo page的HTML,但只检索HTML的第二部分
我已经尝试设置scala> object c defined object c 但没有任何变化;这是我的代码:

.maxBodySize(0)

提取的内容从this highlighted <script> tag开始 我该怎么做才能提取脚本之前的import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class PrintVimeoHTML { public static void main(String[] args) throws IOException { Document doc = Jsoup.connect("https://vimeo.com/categories/food/cooking/videos") .header("Accept-Encoding", "gzip, deflate") .userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36") .maxBodySize(0) .timeout(600000) .get(); System.out.println(doc); } }

1 个答案:

答案 0 :(得分:0)

使用Selenium代替Jsoup解决。这是一个JavaScript问题:Jsoup不运行JavaScript,我的内容实际上是由脚本加载的。 Selenium很适合这个目的,因为它可以模拟真实的浏览器,因此它可以生成整个HTML。