我正在使用VBA excel中的网络抓取工具。
由于我要抓取的网站的机制,我必须通过excel进行操作,因为该网站是一个政府平台,可以通过位于Internet Explorer授权计算机上的文件进行验证,通常我会使用python或parsehub,但我们在这里。
我遇到的问题是,我正在抓取大约6,600个唯一页面(所有格式完全相同),并且当前加载每个页面大约需要3到5秒钟,这导致宏必须运行6到6秒钟。 9小时。
我的问题是关于机制的问题,因为我限制了网页的加载速度,一次运行多个链接,而不是一次打开一个链接,打开说可能还是可行的? ,一次10个?还是瓶颈是我的互联网连接而不是IE速度?
这里只是头脑风暴。
答案 0 :(得分:0)
您可以使用Selenium Basic,以便可以操纵Google Chrome,并且使用selenium或IE VBA,可以运行多个实例并以异步方式运行Javascript脚本。
我认为最好的方法是,如果页面不是动态的(使用JavaScript函数进行更改),也可以使用HTTPRequest