应用错误收集

没有从Instagram获取数据

时间：2018-10-31 23:27:07

标签： python html beautifulsoup web-crawler instagram

由于Instagram API无法正常工作，因此我尝试抓取给定主题标签的信息。在Hash-Tag的搜索页面上，它嵌入了Ajax，因此我遵循在线规则查找在其中检索数据的url。然后我有以下链接。

https://www.instagram.com/graphql/query/?query_hash=f92f56d47dc7a55b606908374b43a314&variables=%7B%22tag_name%22%3A%22cancun%22%2C%22show_ranked%22%3Afalse%2C%22first%22%3A20%2C%22after%22%3A%22QVFENlVELW9hZjlJVWU1RWd6anpWdGNsYkVwU3M5TzUtaDlRN3VoRHlwU1EwWWRBZ2t6TFkzbEl1M3RRcmItd0JKbVBiM2pLUXZpT0JzNWp3dFhIcElfWg%3D%3D%22%7D

但是，当我尝试使用Urlopen搜寻该页面时，Instagram阻止了我的搜寻器。我试图使用User-Agent来解决它，但是它不起作用。然后，我尝试使用Webdriver伪造浏览器，它绕过了障碍，但是从爬网过程中我什么也没得到。有谁知道这是怎么回事。

options = webdriver.ChromeOptions()
options.add_argument('headless') 
driver.get(url)
pagesource = driver.page_source
bsObj = BeautifulSoup(pagesource,'html.parser')
print(bsObj.prettify())

感谢任何帮助！

0 个答案:

没有答案