从动态页面获取HTML代码

时间:2017-12-08 01:23:26

标签: java html web-crawler

我正在尝试获取以下网站的HTML代码。 http://fortune.com/fortune500/list/

但问题是,当我们在浏览器中访问该网站时,它只显示前20家公司,当我们访问网站的底部时,它会加载下50家公司。

如何从这个网站获得前500家公司的HTML代码? 我尝试使用此网站https://www.mkyong.com/java/how-to-get-url-content-in-java/中的代码来获取HTML内容,但正如预期的那样,它只提供前20家公司

非常感谢任何帮助 感谢

2 个答案:

答案 0 :(得分:1)

CURL http://fortune.com/api/v2/list/2013055/expand/item/ranking/asc/ {{start_from}} / {{num_limit}}

示例http://fortune.com/api/v2/list/2013055/expand/item/ranking/asc/1/100

网站“fortune.com”从CURL返回最多100个元素。

CURL返回 JSON

答案 1 :(得分:0)

你应该使用Selenium。以下是关于如何将其与StormCrawler一起使用的tutorial。如果您愿意,也可以直接使用它。