提取锚标签BeautifulSoup的内容

时间:2018-08-10 01:30:59

标签: python web-scraping beautifulsoup python-requests

因此,我一直在尝试使用,.contents,.get_text()和各种css选择器来提取锚标记的内容,但似乎没有一个起作用。我查看了其他各种问题并尝试了解决方案,但它们仍然没有用。我正在使用以下方式找到锚标签:

import requests
page = requests.get('https://fasttrack.grv.org.au/RaceField/ViewRaces/338181522')
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.select("div#DogName_1_1 a"))

我现在得到:

[<a href="/Dog/Form?id=2131520026" rel="dog-summary-link">MERCURY RISING [M]</a>]

但是我想要的只是:

汞上升[M]

感谢您的时间

1 个答案:

答案 0 :(得分:1)

您可以使用 .ToggleButton { grid-column: 4; grid-row: 1/2; } .dropdownbutton1 { grid-column: 4; grid-row: 2/3; } .dropdownbutton2 select { grid-column: 3; grid-row: 2/3; } .dropdownbutton1 select { grid-column: 4; grid-row: 2/3; } .dropdownActive { color: red; } 属性:

text

如果这只是您感兴趣的一个元素,则可能需要执行以下操作:

>>> import requests
>>> page = requests.get('https://fasttrack.grv.org.au/RaceField/ViewRaces/338181522')
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(page.content, 'html.parser')
>>> print([ i.text for i in soup.select("div#DogName_1_1 a")])
['MERCURY RISING [M]']

如果要摆脱尾随/前导>>> soup.find(id='DogName_1_1').text '\nMERCURY RISING [M]\n' ,可以使用strip

\n