如何将网站数据刮到Excel工作表?

时间:2017-08-14 22:38:11

标签: javascript java html excel web-scraping

我是一名新手程序员,正在尝试编制所有inc5000公司及其行业,地点,收入和CEO的Excel列表。有没有办法让我自动化这个,这样我就不必手动输入所有5000?

一些问题:

- inc5000列表仅在页面上显示50家公司,滚动到下一页不会更改URL。我尝试将URL转换为HTML,但实际上没有任何元数据显示在HTML代码中(我使用https://try.jsoup.org/~LGB7rk_atM2roavV0d-czMt3J_g)。

- 我需要的所有信息都在这一个滚动页面(https://www.inc.com/profile/loot-crate)上,但随着您向下进展,每个公司的URL都会发生变化。有没有办法从这个站点获取数据而无需手动更改5000个URL?

我是编程新手,我对HTML / JavaScript / Web设计几乎一无所知 - 我只懂基本的Java。我真的很感激任何帮助或潜在的解决方案。

1 个答案:

答案 0 :(得分:2)

这是简单的方法:

转到页面,按f12,转到调试工具的“网络”选项卡,选择XHR(仅过滤数据调用),然后滚动到页面底部。该页面对每个公司进行查询,您可以在调试工具中访问该公司。

获得所有页面后,可以突出显示左侧文件名列表中的所有行,单击右键,然后将其保存到.har文件中。

从那里开始,只需编写一个脚本来拉出json就可以了。

enter image description here