我最近发现了整个网络抓取的世界,我对它很陌生,但它让我感到惊讶。
在阅读了一些相关内容后,我决定继续并创建自己的项目。我想要一些简单的东西,所以我尝试制作一个 .py,告诉你给定的 Instagram 帐户今天是否发布了(或没有)故事。
查看 HTML 代码,我发现所有拥有活跃故事的帐户共享相同的属性:aria-disabled="false"。
所以,我所要做的就是使用 bs4 并检查该属性。我做了以下代码:
res = requests.get('https://www.instagram.com/cristiano/')
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text, 'html.parser')
aux = soup.select('div[aria-disabled="false"]')
print(aux)
这应该可以解决问题。但是, raise_for_status 抛出以下错误:
引发 HTTPError(http_error_msg, response=self) requests.exceptions.HTTPError:429 客户端错误:- 对于 url:https://www.instagram.com/accounts/login/
有谁知道我做错了什么?提前致谢:)