我希望使用Jsoup提取和打印Vimeo page的HTML,但只检索HTML的第二部分。
我已经尝试设置scala> object c
defined object c
但没有任何变化;这是我的代码:
.maxBodySize(0)
提取的内容从this highlighted <script>
tag开始
我该怎么做才能提取脚本之前的import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class PrintVimeoHTML {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("https://vimeo.com/categories/food/cooking/videos")
.header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36")
.maxBodySize(0)
.timeout(600000)
.get();
System.out.println(doc);
}
}
?
答案 0 :(得分:0)
使用Selenium代替Jsoup解决。这是一个JavaScript问题:Jsoup不运行JavaScript,我的内容实际上是由脚本加载的。 Selenium很适合这个目的,因为它可以模拟真实的浏览器,因此它可以生成整个HTML。