在浏览器呈现的java中获取完全加载的网页源代码

时间:2011-07-12 19:08:18

标签: java javascript selenium web-scraping

在页面加载或页面加载后,很少有网页使用一些javascript / ajax调用来填充网页中的某些字段。一个示例是http://www.sohos.co.uk/MEN-T-Shirts/Iron-Fist-Mens-Clothing/--Iron-Fist-Bloody-Mess-T--Shirt_ct271bd5pd197.html,其中使用javascript填充大小下拉框中的内容。

是否可以在Java中获得此类型的完全加载页面?我认为,仅仅使用HttpClient或其他方法是不够的,但使用Selenium,如果可以做到这一点,它会非常棒。

我想要一些可以应用于所有网站的通用解决方案。

非常感谢任何输入/指针。

由于

Jitendra

1 个答案:

答案 0 :(得分:3)

Selenium的WebDriver通过不同的实现支持这种模拟。其中一个是HtmlUnit(无头java浏览器) - 看看。