Question

我希望使用Jsoup提取和打印Vimeo page的HTML，但只检索HTML的第二部分。
我已经尝试设置scala> object c defined object c但没有任何变化;这是我的代码：

.maxBodySize(0)

提取的内容从this highlighted <script> tag开始我该怎么做才能提取脚本之前的import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class PrintVimeoHTML { public static void main(String[] args) throws IOException { Document doc = Jsoup.connect("https://vimeo.com/categories/food/cooking/videos") .header("Accept-Encoding", "gzip, deflate") .userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36") .maxBodySize(0) .timeout(600000) .get(); System.out.println(doc); } }？

Answer 1

使用Selenium代替Jsoup解决。这是一个JavaScript问题：Jsoup不运行JavaScript，我的内容实际上是由脚本加载的。 Selenium很适合这个目的，因为它可以模拟真实的浏览器，因此它可以生成整个HTML。

Jsoup不检索HTML文档的第一部分

1 个答案: