使用BeautifuSoup分离href和锚文本

时间:2016-09-10 03:36:15

标签: python-3.x beautifulsoup

我正在使用带有Beautiful Soup 4的Python3来将href与文本本身分开。像:

<a href="yoursite.com" class=sample-class">LINK</a>

我想(1)提取并打印yoursite.com,然后获取LINK。

如果有人能帮助我那会很棒!

2 个答案:

答案 0 :(得分:1)

通过比喻名称找到a元素;使用类似字典的访问来表示属性; .get_text()获取链接文字:

a = soup.find("a", class_="sample-class")  # or soup.select_one("a.sample-class")
print(a["href"])
print(a.get_text())

答案 1 :(得分:0)

  

标签可以包含任意数量的属性。标签   有一个属性“class”,其值为“boldest”。你可以访问   通过将标记视为字典来处理标记的属性:

> tag['class']
> # u'boldest'
  

字符串对应于标记内的一些文本。美丽的汤   使用NavigableString类来包含这些文本位:

tag.string
# u'Extremely bold'

您可以在Beautiful Soup Documentation

中找到