阅读网站,就像用户通过HttpComponents看到它一样

时间:2013-10-18 16:44:41

标签: java html web-crawler

我想获取网站的html,就像我浏览浏览器一样。

当我试图获取某个网站的HTML时,它与我使用chrome的时候有所不同,我想知道我是否可以使用apache的HttpComponents制作一个合法的get请求。

我尝试设置User-Agent,但它不起作用..我还应该做什么?

谢谢

1 个答案:

答案 0 :(得分:2)

如果一个网页都是静态HTML,那么是的,你可以这样做。现在许多网页都是在客户端使用Javascript从各种来源(HTML,XML,JSON等)动态构建的,因此用户看到的唯一表示是浏览器中的DOM。除非你愿意模仿完整的浏览器执行环境(或者可以挂钩到浏览器),否则这是不可能的。