Java Web scraper的最佳库是什么?我知道以下选择:
我需要选择一个选项来为一个可伸缩项目构建一个scraper。
答案 0 :(得分:1)
如果你在抓,你为什么需要浏览器?只是对页面进行基本的cURL调用并获得响应将为您提供所需的抓取功能。
这有助于提高可扩展性。如果你想要一个浏览器,那就选择HTMLUnit,这样可以再次提高可扩展性。
答案 1 :(得分:1)
我最近被推荐Web Harvest,并认为它开箱即用,除了围绕HTTP 500响应代码的一些问题......
答案 2 :(得分:0)
使用jsoup,它可以很好地从URL获取响应,然后使用XPath表达式来解析响应中的数据。我实现了这个并且效果很好。