如何使用python解析包含CSS和HTML的网页

时间:2013-07-03 21:56:41

标签: python html-parsing beautifulsoup

我试图从包含CSS和HTML的网页中解析并提取一些信息。我正在使用cssutils和beatifulsoup。让我们说我想找出用于表标题的字体大小。 Beautifulsoup告诉我表格定义在HTML中的位置。但如果我想知道表中使用哪种样式,我是否可以从BeatifulSoup获取该信息?如果不是我如何解决这个问题。谢谢你的帮助。

1 个答案:

答案 0 :(得分:0)

是的,你明白了。 BeautifulSoup是完美的选择,正则表达是强大的力量:)

示例:

import re
from BeautifulSoup import BeautifulSoup


soup = BeautifulSoup('<h1 style="font-size: 12px; margin: 5px">Test</h>')
style = soup.find('h1')['style']
re.findall('font-size[^;]+', style)
# [u'font-size: 12px']