我正在尝试构建一个刮板,以从该站点获取所有列表图像。我想出了如何将所有页面转换成.txt文件的方法,但是在尝试使用此代码制作第一页时,控制台没有吐出12次。禁止刮刮吗?
在抓取第一页并将其放在列表中之后,我还将如何从.txt文件中提取URL。
每个页面有6585个URL,其中每个页面都有12个列表,最后一个URL则为2。
import requests
from bs4 import BeautifulSoup
url = "https://irockdecals.com/shop-decals/?sort=bestselling&page=1"
sourceCode = requests.get(url)
plainText = sourceCode.text
soup = BeautifulSoup(plainText, "html.parser")
irock = (soup.find_all('div', class_="card-img-container"))
for img in irock:
soup.find_all("src")
bingo = img.get("src")
print(bingo)
答案 0 :(得分:1)
遍历div元素时,您需要获取每个div中的图像(“ img”),然后获取该图像元素的“ src”。
import requests
from bs4 import BeautifulSoup
url = "https://irockdecals.com/shop-decals/?sort=bestselling&page=1"
sourceCode = requests.get(url)
plainText = sourceCode.text
soup = BeautifulSoup(plainText, "html.parser")
irock = (soup.find_all('div', class_="card-img-container"))
for img in irock:
image_element = img.find("img")
bingo = image_element.get("src")
print(bingo)