我现在试着刮掉Instagram帖子查询的纯文本(" https://www.instagram.com/graphql/query/query_id=17888483320059182&id=USER_ID&first=50"),只得到403和301的回复。 谁知道我怎么能绕过这些回复或刮掉数据?
答案 0 :(得分:1)
Instagram使用default Scrapy User-Agent阻止请求。
您可以更改Scrapy的User-Agent,以便使用看起来像真实浏览器的用户代理。但是,如this discussion中所评论的那样,你仍然会在抓取Instagram方面遇到问题:请求限制等。
我提醒您scraping Instagram is against their TOS,因此如果检测到抓取,他们最终会阻止您的帐户和/或IP。
答案 1 :(得分:1)