使用 BeautifulSoup 抓取网页时出现错误 429

时间:2021-06-30 22:15:35

标签: python html web-scraping instagram

我最近发现了整个网络抓取的世界,我对它很陌生,但它让我感到惊讶。

在阅读了一些相关内容后,我决定继续并创建自己的项目。我想要一些简单的东西,所以我尝试制作一个 .py,告诉你给定的 Instagram 帐户今天是否发布了(或没有)故事。

查看 HTML 代码,我发现所有拥有活跃故事的帐户共享相同的属性:aria-disabled="false"

所以,我所要做的就是使用 bs4 并检查该属性。我做了以下代码:

res = requests.get('https://www.instagram.com/cristiano/')
res.raise_for_status()

soup = bs4.BeautifulSoup(res.text, 'html.parser')
aux = soup.select('div[aria-disabled="false"]')

print(aux)

这应该可以解决问题。但是, raise_for_status 抛出以下错误:

引发 HTTPError(http_error_msg, response=self) requests.exceptions.HTTPError:429 客户端错误:- 对于 url:https://www.instagram.com/accounts/login/

有谁知道我做错了什么?提前致谢:)

0 个答案:

没有答案
相关问题