<a class="mdl-navigation__link" href="#StringFormatInvalid">
<i class="material-icons error-icon">error</i>Invalid format string (1)</a>
所有感兴趣的项目都带有标记,但是我想从该标记中提取文本。我应该怎么做?
答案 0 :(得分:0)
我们不知道您是要在<i>
标记内还是在<a>
标记内所有文本。
无论如何,这是一个可同时找到两者的代码段:
from bs4 import BeautifulSoup
import requests
html = """<a class="mdl-navigation__link" href="#StringFormatInvalid">
<i class="material-icons error-icon">error</i>Invalid format string (1)</a>"""
soup = BeautifulSoup(html, 'html.parser')
a = soup.find('a', {'class': 'mdl-navigation__link'})
i = soup.find('i', {'class': 'material-icons error-icon'})
print('a text = ', a.get_text())
print('i text = ', i.get_text())
输出:
a text =
errorInvalid format string (1)
i text = error