应用错误收集

时间：2017-12-08 01:23:26

标签： java html web-crawler

我正在尝试获取以下网站的HTML代码。 http://fortune.com/fortune500/list/

但问题是，当我们在浏览器中访问该网站时，它只显示前20家公司，当我们访问网站的底部时，它会加载下50家公司。

如何从这个网站获得前500家公司的HTML代码？我尝试使用此网站https://www.mkyong.com/java/how-to-get-url-content-in-java/中的代码来获取HTML内容，但正如预期的那样，它只提供前20家公司

非常感谢任何帮助感谢

答案 0 :(得分：1)

CURL ：http://fortune.com/api/v2/list/2013055/expand/item/ranking/asc/ {{start_from}} / {{num_limit}}

网站“fortune.com”从CURL返回最多100个元素。

CURL返回 JSON 。

答案 1 :(得分：0)

你应该使用Selenium。以下是关于如何将其与StormCrawler一起使用的tutorial。如果您愿意，也可以直接使用它。