我试图用beautifulsoup废弃一些网站,但我无法让它发挥作用。在网站上有一个主要的div我正在使用这段代码:
wrap_content
这里有一个内部div结构:
for divs in soup.find_all('div', {'class': 'row div-1'}): #I'm taking main div
innerDivs = divs.find_all('div') #Taking inner div's in main div
for inner in innerDivs: #loop for all inner divs
print(inner) # I can print every inner div so it's working
我想访问" title"和image-src,但我不知道如何。我试过“内心”和“#t;等但我失败了。谢谢你的建议!
答案 0 :(得分:1)
首先,您需要找到所有<img>
代码,然后只需获取其属性,就您的['title']
属性而言。
在您的示例中,您只有一个图片标记,因此您可以通过列表索引[0]
获取,然后获取其属性。
from bs4 import BeautifulSoup
template = """
<div class="inner-div preset multi">
<img class="img-resp high" data-
src="https://image.test.co/skin/54asd15q1we12as1d1q/png.png"
title="New Skin" width="100%"/>
</div>
"""
source = BeautifulSoup(template, 'html.parser')
images = source.find_all('img')
print(images[0]['title']) # New skin
print(images[0]['src']) # https://image.test.co/skin/54asd15q1we12as1d1q/png.png
print(images[0]['width']) # 100%