应用错误收集

Java web scraper

时间：2011-03-03 10:22:23

标签： java html-parsing htmlunit html-content-extraction

Java Web scraper的最佳库是什么？我知道以下选择：

硒
的HtmlUnit
Lobo浏览器

我需要选择一个选项来为一个可伸缩项目构建一个scraper。

3 个答案:

答案 0 :(得分：1)

如果你在抓，你为什么需要浏览器？只是对页面进行基本的cURL调用并获得响应将为您提供所需的抓取功能。

这有助于提高可扩展性。如果你想要一个浏览器，那就选择HTMLUnit，这样可以再次提高可扩展性。

答案 1 :(得分：1)

我最近被推荐Web Harvest，并认为它开箱即用，除了围绕HTTP 500响应代码的一些问题......

答案 2 :(得分：0)

使用jsoup，它可以很好地从URL获取响应，然后使用XPath表达式来解析响应中的数据。我实现了这个并且效果很好。