应用错误收集

Groovy中的Crawler（JSoup VS Crawler4j）

时间：2014-06-23 17:45:40

标签： jsoup web-crawler crawler4j

我希望在Groovy中开发一个Web爬虫（使用Grails框架和MongoDB数据库），它能够抓取网站，创建站点URL列表及其资源类型，内容，响应时间和重定向数量参与其中。

我正在讨论JSoup vs Crawler4j。我已经阅读了他们基本上做了什么，但我无法理解两者之间的区别。任何人都可以建议哪个更适合上述功能？或者比较两者完全不正确？

感谢。

1 个答案:

答案 0 :(得分：13)

Crawler4J是一个抓取工具，Jsoup是一个解析器。实际上你可以/应该使用两者。 Crawler4J是一个简单的多线程接口，用于获取所需网站的所有网址和所有页面（内容）。之后，您可以使用Jsoup来解析数据，使用惊人的（类似jquery的）css选择器并实际执行某些操作。当然，您必须考虑动态（生成javascript）内容。如果你也想要那些内容，那么你必须使用其他包含javascript引擎（无头浏览器+解析器）的东西，如htmlunit或webdriver（selenium），它将在解析内容之前执行javascript。