标签: java html browser web-scraping
我正在java中编写一个非常基本的Web蜘蛛。我遇到一个问题,为同一个url加载的内容与浏览器中的内容不同。例如,尝试下面的URL。
http://www.google.co.in/search?sourceid=chrome&ie=UTF-8&q=web+spider#sclient=psy&hl=en&source=hp&q=web+spider&aq=f&aqi=&aql=&oq=web+spider&pbx=1&fp=d8e8e41d6d2bda33&biw=1366&bih=643
如果您在浏览器中加载此URL,并通过JAVA URL类,则内容不同。这可能是由于以下原因。
有没有一种方法可以在我的java程序中模拟浏览器。有任何第三方库,加载类似于浏览器的页面,最后返回内容。感谢任何帮助。
答案 0 :(得分:1)
尝试htmlunit它可以模拟浏览器行为并处理javascript