获取网页的内容(通过AJAX调用加载)

时间:2013-12-17 11:48:00

标签: jsoup web-crawler

我是一个爬行的初学者。我需要从链接中获取帖子和评论。我想自动化这个过程。我考虑过使用webcrawler和jsoup但是被告知webcrawler主要用于更深入的网站。

页面示例:Jive社区网站

对于此页面,当我查看页面的来源时,我只能看到帖子而不是评论。认为这是因为通过对服务器的AJAX调用来获取注释。

因此,当我使用jsoup时,它不会获取注释。

那么如何自动获取帖子和评论的过程呢?

2 个答案:

答案 0 :(得分:10)

Jsoup只是一个 html 解析器。不幸的是,无法解析任何javascript / ajax内容,因为jsoup无法执行这些内容。

解决方案:使用可以处理脚本的库。

以下是我所知道的一些例子:

如果这样的库不支持解析或选择器,你至少可以使用它们从脚本中获取Html(然后可以通过jsoup解析)。

答案 1 :(得分:2)

Jsoup不处理Javascript和Ajax,因此您需要使用Htmlunit或selenium。 在使用Htmlunit加载页面之后,您可以使用jsoup执行其余任务。