如何通过servlet获取web浏览器上的html代码?

时间:2016-02-17 08:28:34

标签: html jsoup servlet-3.0

我需要使用JSoup获取html。

我现在有:

Document doc = Jsoup
               .connect("http://~~~")
               .get();

问题:动态网站,网页延迟加载图片,嵌套框架。

我无法获得所有资源,HTML代码。 当我通过jsoup连接到该网站时,该网站代码&资源与HTML不完整。

ex)延迟加载图片:未完成的代码 - > ~~ / white.png 已更改为已完成的代码 - > something.png

如何在Web浏览器上获得完整的html代码。 有人提到过使用httpClient库。但我不知道该怎么做。

1 个答案:

答案 0 :(得分:0)

您是否尝试过使用 HtmlUnit 框架? HtmlUnit 更适合Web应用程序单元测试自动化, JSoup 更适合Web Scraping。

看看这个:http://htmlunit.sourceforge.net/gettingStarted.html