Java-Scrape动态网站与JSoup

时间:2013-02-10 20:56:22

标签: java applet jsoup

我想用JSoup抓一个网站。这个网站是动态的,每隔一秒左右更新一次。我很确定它使用JQuery,它可以更新HTML中的一些标签。我正在使用JSoup,但动态区域是空白的。 JSoup有什么特别的东西来解决这个问题吗?或者这是一个限制? 编辑:我打算将它放在我网站上的Java小程序中。

3 个答案:

答案 0 :(得分:4)

听起来您希望JSoup的行为类似于支持JavaScript的浏览器。 我不敢工作。 JSoup是一个可以执行HTTP请求的工具,然后将响应主体用于有用的东西。

这个有用的东西'是从响应中的(X)HTML文本中提取信息。 如果您想在加载JavaScript注入的HTML页面(=动态网页)后想要后续ajax-request的内容,您需要自己对这些后续请求建模并指示JSoup手动执行这些请求

答案 1 :(得分:1)

  1. Selenium WebDriver 在真实浏览器中打开页面
  2. 使用Selenium WebDriver API处理元素并获取其内容 - 您甚至可以在页面的上下文中调用JS代码
  3. 解析JSoup等。

答案 2 :(得分:0)

HTMLUnit是一个基于java的无窗口浏览器,支持javascript 我曾经用过一些报废项目而且效果很好,有时候大型操作有点慢。它还支持代理。 http://htmlunit.sourceforge.net/