Question

我正在尝试构建一个刮板，以从该站点获取所有列表图像。我想出了如何将所有页面转换成.txt文件的方法，但是在尝试使用此代码制作第一页时，控制台没有吐出12次。禁止刮刮吗？

在抓取第一页并将其放在列表中之后，我还将如何从.txt文件中提取URL。

每个页面有6585个URL，其中每个页面都有12个列表，最后一个URL则为2。

import requests
from bs4 import BeautifulSoup

url = "https://irockdecals.com/shop-decals/?sort=bestselling&page=1"

sourceCode = requests.get(url)

plainText = sourceCode.text

soup = BeautifulSoup(plainText, "html.parser")

irock = (soup.find_all('div', class_="card-img-container"))

for img in irock:
    soup.find_all("src")
    bingo = img.get("src")
    print(bingo)

Answer 1

遍历div元素时，您需要获取每个div中的图像（“ img”），然后获取该图像元素的“ src”。

import requests
from bs4 import BeautifulSoup

url = "https://irockdecals.com/shop-decals/?sort=bestselling&page=1"

sourceCode = requests.get(url)

plainText = sourceCode.text

soup = BeautifulSoup(plainText, "html.parser")

irock = (soup.find_all('div', class_="card-img-container"))

for img in irock:
    image_element = img.find("img")
    bingo = image_element.get("src")
    print(bingo)

控制台没有返回12次。有12张图像。不能刮擦图像吗？

1 个答案: