我正在使用下面的方法将帖子链接链接到抓取instagram个人资料。 我可以更改检索到的图像数量吗?在Json响应中,我看到了“ has_next_page”参数,但不确定如何使用它。 提前致谢。 发表链接: What is the new instagram json endpoint?
使用的代码:
r = requests.get('https://www.instagram.com/' + profile + '/')
soup = BeautifulSoup(r.content)
scripts = soup.find_all('script', type="text/javascript",
text=re.compile('window._sharedData'))
stringified_json = scripts[0].get_text().replace('window._sharedData = ', '')[:-1]
data = json.loads(stringified_json)['entry_data']['ProfilePage'][0]
答案 0 :(得分:0)
您可以在这里找到Instagram API:https://www.instagram.com/developer/ 我认为该文档非常整洁,您只需注册即可获取访问令牌。
答案 1 :(得分:0)
您的问题如下:在您的代码中,您从配置文件页面中删除数据,这意味着您只会获得已加载的图像。 这就是为什么您不能仅为其设置更大的数字来获取更多图像的原因。
我建议以下之一:
1。。使用Instagram的API,该API带有已构建的方法来完全完成您似乎想要实现的目标(不要重新发明轮子)。>
2。。相反,如果您想自己完成大部分工作(例如,作为练习),我建议您使用Selenium,这是一种自动化方法。 在代码中,您使用BeautifulSoup,它非常适合从HTML文件中检索数据,但是您需要做更多的事情:滚动-这是为了允许加载更多图片。这样,您可以获取尽可能多的图片。
如果您需要一个示例,可以查看我为Twitter here
写的类似示例。