使用beautifulsoup从类中提取文本

时间:2019-04-29 03:50:14

标签: web-scraping beautifulsoup

<a class="mdl-navigation__link" href="#StringFormatInvalid">
<i class="material-icons error-icon">error</i>Invalid format string (1)</a>

所有感兴趣的项目都带有标记,但是我想从该标记中提取文本。我应该怎么做?

1 个答案:

答案 0 :(得分:0)

我们不知道您是要在<i>标记内还是在<a>标记内所有文本。

无论如何,这是一个可同时找到两者的代码段:

from bs4 import BeautifulSoup
import requests

html = """<a class="mdl-navigation__link" href="#StringFormatInvalid">
<i class="material-icons error-icon">error</i>Invalid format string (1)</a>"""

soup = BeautifulSoup(html, 'html.parser')

a = soup.find('a', {'class': 'mdl-navigation__link'})
i = soup.find('i', {'class': 'material-icons error-icon'})

print('a text = ', a.get_text())
print('i text = ', i.get_text())

输出:

a text =  
errorInvalid format string (1)

i text =  error