如何用美丽的汤提取src

时间:2016-04-22 08:55:30

标签: python selenium beautifulsoup

#page source for bs4
html = wd.page_source
soup = BeautifulSoup(html, "html.parser")  



thumbnail = (soup.find('div', attrs={ "class" : "preview"}))

输出

[<div class="preview">
<img alt="eye.jpg" src="https://thumb-service.domain.net/?sign=d85565637ccacf35673008b12871db54&amp;cdb=CPM&amp;fid=86274&amp;size=120&amp;format=jpg&amp;mtd=maxs&amp;mtdp=&amp;fp=&amp;ts=1461315108317" title="eye.jpg">
</img></div>]

我想要src和&amp;作为&amp;,我搜索并尝试了各种建议,但我无法得到这个

1 个答案:

答案 0 :(得分:2)

您可以使用CSS selector

选择图片代码
thumbnails = soup.select('div.preview img[src]')
for thumbnail in thumbnails:
    url = thumbnail['src']

上面的CSS选择器会在<img>内找到src<div>属性的preview个标记。

您只需要第一次匹配,然后使用select_one()

url = soup.select_one('div.preview img[src]')['src']