应用错误收集

时间：2013-12-17 11:48:00

标签： jsoup web-crawler

我是一个爬行的初学者。我需要从链接中获取帖子和评论。我想自动化这个过程。我考虑过使用webcrawler和jsoup但是被告知webcrawler主要用于更深入的网站。

页面示例：Jive社区网站

对于此页面，当我查看页面的来源时，我只能看到帖子而不是评论。认为这是因为通过对服务器的AJAX调用来获取注释。

因此，当我使用jsoup时，它不会获取注释。

那么如何自动获取帖子和评论的过程呢？

答案 0 :(得分：10)

Jsoup只是一个 html 解析器。不幸的是，无法解析任何javascript / ajax内容，因为jsoup无法执行这些内容。

解决方案：使用可以处理脚本的库。

以下是我所知道的一些例子：

如果这样的库不支持解析或选择器，你至少可以使用它们从脚本中获取Html（然后可以通过jsoup解析）。

答案 1 :(得分：2)

Jsoup不处理Javascript和Ajax，因此您需要使用Htmlunit或selenium。在使用Htmlunit加载页面之后，您可以使用jsoup执行其余任务。