我想抓取某些网站页面(如Amazon或eBay)以获取已售商品图片的路径。当我检查页面时,页面完全加载时,似乎src图像已被javascript修改。
有一个名为cheerio
的库。这很简单,但是在页面完全加载后它没有公开进行任何检查的方法,它只返回html。有人对此有经验吗?还是有任何库可以用来获取真实的图像路径,因为它是由javascript修改的?谢谢您的帮助。
答案 0 :(得分:0)
如评论中所述,操纵up可能是抓取动态页面的最佳方法。这是一个与chrome / chromium接口的节点库,将像常规chrome实例一样加载页面。
在page.evaluate
内,您可以使用MutationObserver浏览器api来观看DOM并等待所需的图像。
我在使用Apify方面有很好的经验,它将为您运行人偶实例并具有免费的免费层。