Question

<a class="mdl-navigation__link" href="#StringFormatInvalid">
<i class="material-icons error-icon">error</i>Invalid format string (1)</a>

所有感兴趣的项目都带有标记，但是我想从该标记中提取文本。我应该怎么做？

Answer 1

我们不知道您是要在<i>标记内还是在<a>标记内所有文本。

无论如何，这是一个可同时找到两者的代码段：

from bs4 import BeautifulSoup
import requests

html = """<a class="mdl-navigation__link" href="#StringFormatInvalid">
<i class="material-icons error-icon">error</i>Invalid format string (1)</a>"""

soup = BeautifulSoup(html, 'html.parser')

a = soup.find('a', {'class': 'mdl-navigation__link'})
i = soup.find('i', {'class': 'material-icons error-icon'})

print('a text = ', a.get_text())
print('i text = ', i.get_text())

输出：

a text =  
errorInvalid format string (1)

i text =  error

使用beautifulsoup从类中提取文本

1 个答案: