使用beautifulsoup从HTML中剥离值

时间:2019-02-07 04:45:14

标签: python beautifulsoup

试图从

剥离
<h3 class="s-item__title s-item__title--has-tags" role="text"><div><div class="s-item__title-tag">Nov 14, 2018</div></div>Text I Want</h3>

我想要这些值: 2018年11月14日, 我要的文字

我已经尝试过,但是无法达到第二个值。

1 个答案:

答案 0 :(得分:3)

我使用strings generator来获取html中的所有字符串,并将其存储在列表中:

from bs4 import BeautifulSoup

html = """<h3 class="s-item__title s-item__title--has-tags" role="text"><div><div class="s-item__title-tag">Nov 14, 2018</div></div>Text I Want</h3>)"""

bs = BeautifulSoup(html, 'html.parser')
text = [s for s in bs.h3.strings]

text

['Nov 14, 2018', 'Text I Want']