标签: java dynamic web-scraping jsoup webclient
如何使用动态内容加载抓取网站,例如forbes.com文章,但不在apache http客户端使用网络驱动程序(速度慢)。
我已尝试获取sitemap.xml,但他们的站点地图仅包含最新文章,而且我想从非常旧的文章中获取信息。
另外,我想要一个更通用的解决方案,并且使用网络驱动程序(我现在使用selenium和phantomJS)是特定于站点的并且速度很慢。
答案 0 :(得分:0)
我建议您尝试使用此工具ui4j。它是带有无头模式的JavaFx WebKit引擎的包装器。它可以帮助你加快速度。