如何使用动态内容加载来抓取网站?

时间:2016-01-06 14:29:05

标签: java dynamic web-scraping jsoup webclient

如何使用动态内容加载抓取网站,例如forbes.com文章,但不在apache http客户端使用网络驱动程序(速度慢)。

我已尝试获取sitemap.xml,但他们的站点地图仅包含最新文章,而且我想从非常旧的文章中获取信息。

另外,我想要一个更通用的解决方案,并且使用网络驱动程序(我现在使用selenium和phantomJS)是特定于站点的并且速度很慢。

1 个答案:

答案 0 :(得分:0)

我建议您尝试使用此工具ui4j。它是带有无头模式的JavaFx WebKit引擎的包装器。它可以帮助你加快速度。