我正在使用带有Beautiful Soup 4的Python3来将href与文本本身分开。像:
<a href="yoursite.com" class=sample-class">LINK</a>
我想(1)提取并打印yoursite.com,然后获取LINK。
如果有人能帮助我那会很棒!
答案 0 :(得分:1)
通过比喻名称找到a
元素;使用类似字典的访问来表示属性; .get_text()
获取链接文字:
a = soup.find("a", class_="sample-class") # or soup.select_one("a.sample-class")
print(a["href"])
print(a.get_text())
答案 1 :(得分:0)
标签可以包含任意数量的属性。标签 有一个属性“class”,其值为“boldest”。你可以访问 通过将标记视为字典来处理标记的属性:
> tag['class']
> # u'boldest'
字符串对应于标记内的一些文本。美丽的汤 使用NavigableString类来包含这些文本位:
tag.string
# u'Extremely bold'
中找到