Java web scraper

时间:2011-03-03 10:22:23

标签: java html-parsing htmlunit html-content-extraction

Java Web scraper的最佳库是什么?我知道以下选择:

  1. 的HtmlUnit
  2. Lobo浏览器
  3. 我需要选择一个选项来为一个可伸缩项目构建一个scraper。

3 个答案:

答案 0 :(得分:1)

如果你在抓,你为什么需要浏览器?只是对页面进行基本的cURL调用并获得响应将为您提供所需的抓取功能。

这有助于提高可扩展性。如果你想要一个浏览器,那就选择HTMLUnit,这样可以再次提高可扩展性。

答案 1 :(得分:1)

我最近被推荐Web Harvest,并认为它开箱即用,除了围绕HTTP 500响应代码的一些问题......

答案 2 :(得分:0)

使用jsoup,它可以很好地从URL获取响应,然后使用XPath表达式来解析响应中的数据。我实现了这个并且效果很好。