没有从Instagram获取数据

时间:2018-10-31 23:27:07

标签: python html beautifulsoup web-crawler instagram

由于Instagram API无法正常工作,因此我尝试抓取给定主题标签的信息。在Hash-Tag的搜索页面上,它嵌入了Ajax,因此我遵循在线规则查找在其中检索数据的url。然后我有以下链接。

https://www.instagram.com/graphql/query/?query_hash=f92f56d47dc7a55b606908374b43a314&variables=%7B%22tag_name%22%3A%22cancun%22%2C%22show_ranked%22%3Afalse%2C%22first%22%3A20%2C%22after%22%3A%22QVFENlVELW9hZjlJVWU1RWd6anpWdGNsYkVwU3M5TzUtaDlRN3VoRHlwU1EwWWRBZ2t6TFkzbEl1M3RRcmItd0JKbVBiM2pLUXZpT0JzNWp3dFhIcElfWg%3D%3D%22%7D

但是,当我尝试使用Urlopen搜寻该页面时,Instagram阻止了我的搜寻器。我试图使用User-Agent来解决它,但是它不起作用。 然后,我尝试使用Webdriver伪造浏览器,它绕过了障碍,但是从爬网过程中我什么也没得到。 有谁知道这是怎么回事。

options = webdriver.ChromeOptions()
options.add_argument('headless') 
driver.get(url)
pagesource = driver.page_source
bsObj = BeautifulSoup(pagesource,'html.parser')
print(bsObj.prettify())

感谢任何帮助!

0 个答案:

没有答案