如何使用BeautifulSoup从内联样式中提取CSS属性

时间:2012-02-14 03:37:29

标签: python css inline beautifulsoup

我有这样的事情:

<img style="background:url(/theRealImage.jpg) no-repate 0 0; height:90px; width:92px;") src="notTheRealImage.jpg"/> 

我正在使用beautifulsoup来解析html。是否可以在“background”css属性中拉出“url”?

1 个答案:

答案 0 :(得分:10)

你有几个选择 - 快速,肮脏或正确的方式。快速而肮脏的方式(如果更改标记会很容易破坏)看起来像

>>> from BeautifulSoup import BeautifulSoup
>>> import re
>>> soup = BeautifulSoup('<html><body><img style="background:url(/theRealImage.jpg) no-repate 0 0; height:90px; width:92px;") src="notTheRealImage.jpg"/></body></html>')
>>> style = soup.find('img')['style']
>>> urls = re.findall('url\((.*?)\)', style)
>>> urls
[u'/theRealImage.jpg']

显然,您必须使用它来使其与多个img标记一起使用。

正确的方式,因为我觉得有人在CSS字符串上使用正则表达式:),使用CSS解析器。 cssutils,我刚刚在Google上找到并在PyPi上提供的图书馆,看起来它可能会起作用。