控制台没有返回12次。有12张图像。不能刮擦图像吗?

时间:2019-08-16 04:28:14

标签: python web-scraping beautifulsoup

我正在尝试构建一个刮板,以从该站点获取所有列表图像。我想出了如何将所有页面转换成.txt文件的方法,但是在尝试使用此代码制作第一页时,控制台没有吐出12次。禁止刮刮吗?

在抓取第一页并将其放在列表中之后,我还将如何从.txt文件中提取URL。

每个页面有6585个URL,其中每个页面都有12个列表,最后一个URL则为2。

import requests
from bs4 import BeautifulSoup

url = "https://irockdecals.com/shop-decals/?sort=bestselling&page=1"

sourceCode = requests.get(url)

plainText = sourceCode.text

soup = BeautifulSoup(plainText, "html.parser")

irock = (soup.find_all('div', class_="card-img-container"))

for img in irock:
    soup.find_all("src")
    bingo = img.get("src")
    print(bingo)

1 个答案:

答案 0 :(得分:1)

遍历div元素时,您需要获取每个div中的图像(“ img”),然后获取该图像元素的“ src”。

import requests
from bs4 import BeautifulSoup

url = "https://irockdecals.com/shop-decals/?sort=bestselling&page=1"

sourceCode = requests.get(url)

plainText = sourceCode.text

soup = BeautifulSoup(plainText, "html.parser")

irock = (soup.find_all('div', class_="card-img-container"))

for img in irock:
    image_element = img.find("img")
    bingo = image_element.get("src")
    print(bingo)