Question

我具有python中str格式的数据，如图所示。

data
 '  </h3>\n</div>\n<div class="wpb_text_column wpb_content_element " data-wow-delay="0.3s">\n<div class="wpb_wrapper">\n<p>\xa0</p>\n<h4><span style="font-weight: 400;">Our Backbone\xa0</span></h4>\n<p><span style="font-weight: 400;">We use various techniques of AI like Neural \n\n'

我想获取此数据中的文本。如果它是tag（<>）而不是字符串格式，则我可以将.string()类型使用get_text()或bs4.element.ResultSet。由于它是字符串类型，因此在这里无法使用。如何从中获取整个字符串数据？

Answer 1

您可以直接在整个文档上致电getText()

soup=BeautifulSoup(data,'html.parser')
text=soup.getText().replace("\n","")
#  Our Backbone We use various techniques of AI like Neural

Answer 2

如果您想从特定标签中提取内容，可以尝试类似的操作

from bs4 import BeautifulSoup as bs
soup = bs(data,'html.parser')
a = [i.text.strip() for i in soup.findAll('div',{'class':'wpb_wrapper'})]

如何使用python的BeautifulSoup从字符串类型数据中仅获取文本信息

2 个答案: