我用bs4和硒刮

时间:2018-05-29 20:41:59

标签: python selenium beautifulsoup

我正在尝试使用selenium和bs4从IG中抓取一些img文件。我有以下脚本来做它,似乎工作正常,但最终我希望它只打印img src,示例:https://scontent-lax3-2.cdninstagram.com/vp/2592f6b07f88bfc4bfdf6d73400a04b8/5BA6E998/t51.2885-15/s640x640/sh0.08/e35/28752330_1972627949433283_1816022201220988928_n.jpg并稍后下载图像。但是现在我需要一些帮助才能打印出没有标签和附加内容的img src链接。谢谢你的建议。

代码:

import requests
from bs4 import BeautifulSoup
import selenium.webdriver as webdriver

url = ('https://www.instagram.com/kitties/')
driver = webdriver.Firefox()
driver.get(url)

soup = BeautifulSoup(driver.page_source, 'lxml')

img_url = soup.find_all('img', class_='_2di5p')

print img_url

1 个答案:

答案 0 :(得分:1)

只需打印出src找到的图片即可。

imgs= soup.find_all('img', class_='_2di5p')
for img in imgs:
    img_url=img["src"]
    print img_url