我需要在这里使用正则表达式吗?
我想要的内容如下:
any
但是,有许多以“元内容=”开头的对象,我想要以name =“ description”结尾的对象。我是regex的新手,但我认为BS可以解决这个问题。
答案 0 :(得分:1)
假设您能够将HTML内容读入变量并将其命名为变量html
,则必须使用beautifulsoup解析HTML:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
然后,要搜索<meta content="text I want to grab" name="description"/>
,必须找到名称为'meta'
且属性为name='description'
的标签:
def is_meta_description(tag):
return tag.name == 'meta' and tag['name'] == 'description'
meta_tag = soup.find(is_meta_description)
您正在尝试获取代码的content
属性,因此:
content = meta_tag['content']
由于这是一个简单的搜索,因此还有一种更简单的方式来找到标签:
meta_tag = soup.find('meta', attrs={'name': 'description'})