我想获取网站的html,就像我浏览浏览器一样。
当我试图获取某个网站的HTML时,它与我使用chrome的时候有所不同,我想知道我是否可以使用apache的HttpComponents制作一个合法的get请求。
我尝试设置User-Agent,但它不起作用..我还应该做什么?
谢谢
答案 0 :(得分:2)
如果一个网页都是静态HTML,那么是的,你可以这样做。现在许多网页都是在客户端使用Javascript从各种来源(HTML,XML,JSON等)动态构建的,因此用户看到的唯一表示是浏览器中的DOM。除非你愿意模仿完整的浏览器执行环境(或者可以挂钩到浏览器),否则这是不可能的。