我正在尝试构建一个可以获取Instagram照片的Python网页抓取工具,例如Instagram的官方版本:“instagram.com/instagram”。初始Web源仅包含最新的20张照片,其他人需要向下滚动才能加载。作为一个Javascript新手,我无法弄清楚Instagram是如何通过Javascript加载它们的。
在我的观察中,有两个可能与加载操作相关的JS脚本webpack-common.js和UserProfile.js。检查何时点击页面底部,然后进行ajax调用以获取新数据。
但是如何通过爬虫来做到这一点?我下载这些js文件并使用PyV8加载它们但总是出错。我需要做的不仅仅是执行js文件吗?