使用BeautifulSoup / Python

时间:2015-08-02 18:46:46

标签: python html css beautifulsoup

我正在尝试在Soundcloud页面上提取“背景图像”的网址(例如https://soundcloud.com/ohwondermusic/drive)。我不太确定为什么我发现这个问题比从其他网页中提取网址那么困难我已经找到了在线指南。

在我关联的示例网页中,我想要通过右键单击相册图片并在Chrome浏览器中选择“检查元素”找到此网址:https://i1.sndcdn.com/artworks-000125017075-di2n0i-t500x500.jpg

我想要一些方法来为其他Soundcloud页面持续执行此操作(即获取通过检查专辑图片找到的URL,以500x500.jpg结尾的URL)。

有谁知道怎么做?

编辑:我使用了各种代码来尝试解决:

def pull2(url):
    html = urllib2.urlopen(url)
    soup = BeautifulSoup(html)
    readOnly = soup.body.find_all('div', attrs={'class': 'image readOnly customImage'})
    print readOnly.attrs['style']

def test(url):
    html = urllib2.urlopen(url)
    soup = BeautifulSoup(html)

    imgs = soup.findAll("div", {"class":"thumb-pic"})
    for img in imgs:
        print img.a['href'].split("imgurl=")[1]

1 个答案:

答案 0 :(得分:0)

看起来你应该能够从每页的正确范围中抓取样式,例如:

soup.find("span", class_="sc-artwork")['style']

然后,写一个正则表达式从中提取url或将其拆分为" url"