标签: jsoup web-crawler crawler4j
我希望在Groovy中开发一个Web爬虫(使用Grails框架和MongoDB数据库),它能够抓取网站,创建站点URL列表及其资源类型,内容,响应时间和重定向数量参与其中。
我正在讨论JSoup vs Crawler4j。我已经阅读了他们基本上做了什么,但我无法理解两者之间的区别。任何人都可以建议哪个更适合上述功能?或者比较两者完全不正确?
感谢。
答案 0 :(得分:13)
Crawler4J是一个抓取工具,Jsoup是一个解析器。实际上你可以/应该使用两者。 Crawler4J是一个简单的多线程接口,用于获取所需网站的所有网址和所有页面(内容)。之后,您可以使用Jsoup来解析数据,使用惊人的(类似jquery的)css选择器并实际执行某些操作。当然,您必须考虑动态(生成javascript)内容。如果你也想要那些内容,那么你必须使用其他包含javascript引擎(无头浏览器+解析器)的东西,如htmlunit或webdriver(selenium),它将在解析内容之前执行javascript。