我有这个标签:
<span class="companyName">Actua Corp <acronym title="Central Index Key">CIK</acronym>#: <a href="/cgi-bin/browse-edgar?action=getcompany&CIK=0001085621&owner=include&count=40">0001085621 (see all company filings)</a></span>
我如何获得 <span class="companyName">
之后的值。
在这种情况下是Actua Corp。
我对所有方法持开放态度。
答案 0 :(得分:5)
如果您只想Actua Corp
,可以使用next
r = '<span class="companyName">Actua Corp <acronym title="Central Index Key">CIK</acronym>#: <a href="/cgi-bin/browse-edgar?action=getcompany&CIK=0001085621&owner=include&count=40">0001085621 (see all company filings)</a></span>'
from bs4 import BeautifulSoup
soup = BeautifulSoup(r)
span = soup.find('span', {'class': 'companyName'})
print(span.next)
>>> Actua Corp
如果您想要span
中的所有文字,可以使用text
print(span.text)
>>> Actua Corp CIK#: 0001085621 (see all company filings)