试图从
剥离<h3 class="s-item__title s-item__title--has-tags" role="text"><div><div class="s-item__title-tag">Nov 14, 2018</div></div>Text I Want</h3>
我想要这些值: 2018年11月14日, 我要的文字
我已经尝试过,但是无法达到第二个值。
答案 0 :(得分:3)
我使用strings generator来获取html中的所有字符串,并将其存储在列表中:
from bs4 import BeautifulSoup
html = """<h3 class="s-item__title s-item__title--has-tags" role="text"><div><div class="s-item__title-tag">Nov 14, 2018</div></div>Text I Want</h3>)"""
bs = BeautifulSoup(html, 'html.parser')
text = [s for s in bs.h3.strings]
text
['Nov 14, 2018', 'Text I Want']