完全加载时如何抓取网站页面(js,css全部加载)

时间:2018-09-04 08:57:45

标签: node.js web-crawler

我想抓取某些网站页面(如Amazon或eBay)以获取已售商品图片的路径。当我检查页面时,页面完全加载时,似乎src图像已被javascript修改。

有一个名为cheerio的库。这很简单,但是在页面完全加载后它没有公开进行任何检查的方法,它只返回html。有人对此有经验吗?还是有任何库可以用来获取真实的图像路径,因为它是由javascript修改的?谢谢您的帮助。

1 个答案:

答案 0 :(得分:0)

如评论中所述,操纵up可能是抓取动态页面的最佳方法。这是一个与chrome / chromium接口的节点库,将像常规chrome实例一样加载页面。

page.evaluate内,您可以使用MutationObserver浏览器api来观看DOM并等待所需的图像。

我在使用Apify方面有很好的经验,它将为您运行人偶实例并具有免费的免费层。