如何使用scrapy刮掉instagram查询?

时间:2018-05-05 23:10:38

标签: python web-scraping scrapy instagram

我现在试着刮掉Instagram帖子查询的纯文本(" https://www.instagram.com/graphql/query/query_id=17888483320059182&id=USER_ID&first=50"),只得到403和301的回复。 谁知道我怎么能绕过这些回复或刮掉数据?

2 个答案:

答案 0 :(得分:1)

Instagram使用default Scrapy User-Agent阻止请求。

您可以更改Scrapy的User-Agent,以便使用看起来像真实浏览器的用户代理。但是,如this discussion中所评论的那样,你仍然会在抓取Instagram方面遇到问题:请求限制等。

我提醒您scraping Instagram is against their TOS,因此如果检测到抓取,他们最终会阻止您的帐户和/或IP。

答案 1 :(得分:1)

由于它的工作方式,使用Scrapy很难让它工作。如果你真的想从Instaram中抓取数据,我建议你使用onegram,这是一个类似Instagram的Python API API,由requests提供支持。