解析动态网站

时间:2019-07-11 20:36:37

标签: python

任务:从Instagram帐户获取帖子文本。 Instagram页面是动态生成的,所以我只能得到前几篇文章。我知道我可以使用Selenium滚动页面,但是我不明白如何在此代码中包含Selenium。还有其他方法吗?

from bs4 import BeautifulSoup as soup
import requests
import json
import re


url = 'some url'
page = requests.get(url)


html = soup( page.text, 'html.parser')
s = str(html)
r = re.compile('"shortcode":"(.*?)"')
result = r.findall(s)
print(result)


for shortlink in result:
    print ("https://api.instagram.com/oembed?url=http://instagr.am/p/"+shortlink)
    response = requests.get("https://api.instagram.com/oembed?url=http://instagr.am/p/"+shortlink)

    todos = json.loads(response.text)
    print(todos['title'])
    print("---------")

1 个答案:

答案 0 :(得分:0)

为什么不使用Instagram API,甚至还有python module