无论如何都可以在excel vba中进行网络爬取以加快流程?

时间:2019-03-31 07:31:15

标签: excel vba web-scraping

我正在使用VBA excel中的网络抓取工具。

由于我要抓取的网站的机制,我必须通过excel进行操作,因为该网站是一个政府平台,可以通过位于Internet Explorer授权计算机上的文件进行验证,通常我会使用python或parsehub,但我们在这里。

我遇到的问题是,我正在抓取大约6,600个唯一页面(所有格式完全相同),并且当前加载每个页面大约需要3到5秒钟,这导致宏必须运行6到6秒钟。 9小时。

我的问题是关于机制的问题,因为我限制了网页的加载速度,一次运行多个链接,而不是一次打开一个链接,打开说可能还是可行的? ,一次10个?还是瓶颈是我的互联网连接而不是IE速度?

这里只是头脑风暴。

1 个答案:

答案 0 :(得分:0)

您可以使用Selenium Basic,以便可以操纵Google Chrome,并且使用selenium或IE VBA,可以运行多个实例并以异步方式运行Javascript脚本。


我认为最好的方法是,如果页面不是动态的(使用JavaScript函数进行更改),也可以使用HTTPRequest