Question

我正在使用带有Beautiful Soup 4的Python3来将href与文本本身分开。像：

<a href="yoursite.com" class=sample-class">LINK</a>

我想（1）提取并打印yoursite.com，然后获取LINK。

如果有人能帮助我那会很棒！

Answer 1

通过比喻名称找到a元素;使用类似字典的访问来表示属性; .get_text()获取链接文字：

a = soup.find("a", class_="sample-class")  # or soup.select_one("a.sample-class")
print(a["href"])
print(a.get_text())

Answer 2

标签可以包含任意数量的属性。标签有一个属性“class”，其值为“boldest”。你可以访问通过将标记视为字典来处理标记的属性：

> tag['class']
> # u'boldest'

字符串对应于标记内的一些文本。美丽的汤使用NavigableString类来包含这些文本位：

tag.string
# u'Extremely bold'

中找到