应用错误收集

时间：2018-05-05 23:10:38

标签： python web-scraping scrapy instagram

我现在试着刮掉Instagram帖子查询的纯文本（＆＃34; https://www.instagram.com/graphql/query/query_id=17888483320059182&id=USER_ID&first=50＆＃34;），只得到403和301的回复。谁知道我怎么能绕过这些回复或刮掉数据？

答案 0 :(得分：1)

Instagram使用default Scrapy User-Agent阻止请求。

您可以更改Scrapy的User-Agent，以便使用看起来像真实浏览器的用户代理。但是，如this discussion中所评论的那样，你仍然会在抓取Instagram方面遇到问题：请求限制等。

我提醒您scraping Instagram is against their TOS，因此如果检测到抓取，他们最终会阻止您的帐户和/或IP。

答案 1 :(得分：1)

由于它的工作方式，使用Scrapy很难让它工作。如果你真的想从Instaram中抓取数据，我建议你使用onegram，这是一个类似Instagram的Python API API，由requests提供支持。