我正在尝试获取以下网站的HTML代码。 http://fortune.com/fortune500/list/
但问题是,当我们在浏览器中访问该网站时,它只显示前20家公司,当我们访问网站的底部时,它会加载下50家公司。
如何从这个网站获得前500家公司的HTML代码? 我尝试使用此网站https://www.mkyong.com/java/how-to-get-url-content-in-java/中的代码来获取HTML内容,但正如预期的那样,它只提供前20家公司
非常感谢任何帮助 感谢
答案 0 :(得分:1)
CURL :http://fortune.com/api/v2/list/2013055/expand/item/ranking/asc/ {{start_from}} / {{num_limit}}
示例:http://fortune.com/api/v2/list/2013055/expand/item/ranking/asc/1/100
网站“fortune.com”从CURL返回最多100个元素。
CURL返回 JSON 。
答案 1 :(得分:0)
你应该使用Selenium。以下是关于如何将其与StormCrawler一起使用的tutorial。如果您愿意,也可以直接使用它。