网络蜘蛛需要帮助

时间:2011-05-31 03:43:18

标签: java html browser web-scraping

我正在java中编写一个非常基本的Web蜘蛛。我遇到一个问题,为同一个url加载的内容与浏览器中的内容不同。例如,尝试下面的URL。

http://www.google.co.in/search?sourceid=chrome&ie=UTF-8&q=web+spider#sclient=psy&hl=en&source=hp&q=web+spider&aq=f&aqi=&aql=&oq=web+spider&pbx=1&fp=d8e8e41d6d2bda33&biw=1366&bih=643

如果您在浏览器中加载此URL,并通过JAVA URL类,则内容不同。这可能是由于以下原因。

  • Javascript可能正在发送 XMLHTTP请求和连接 结果呈现最终的HTML。
  • URL重定向可能最终呈现 HTML。
  • 我不知道的任何其他原因。

有没有一种方法可以在我的java程序中模拟浏览器。有任何第三方库,加载类似于浏览器的页面,最后返回内容。感谢任何帮助。

1 个答案:

答案 0 :(得分:1)

尝试htmlunit它可以模拟浏览器行为并处理javascript