我需要使用JSoup获取html。
我现在有:
Document doc = Jsoup
.connect("http://~~~")
.get();
问题:动态网站,网页延迟加载图片,嵌套框架。
我无法获得所有资源,HTML代码。 当我通过jsoup连接到该网站时,该网站代码&资源与HTML不完整。
ex)延迟加载图片:未完成的代码 - > ~~ / white.png 已更改为已完成的代码 - > something.png
如何在Web浏览器上获得完整的html代码。 有人提到过使用httpClient库。但我不知道该怎么做。
答案 0 :(得分:0)
您是否尝试过使用 HtmlUnit 框架? HtmlUnit 更适合Web应用程序单元测试自动化, JSoup 更适合Web Scraping。