我正在尝试将一个静态新闻网站作为一个项目,我正在使用美丽的汤,但我被困在一个包含div标签文本的页面,这里的文字意味着新闻文章
新闻文字包含以下格式
<html>
<body>
<div class="normal" id="foo">
" Many "
<a href ='/some link' target = 'blank'>Bollywood</a>
" stars today are avowed foodies "
<a href = 'link2'>Ranbir Kapoor</a>
" Alia Bhat "
</div>
</body>
</html>
我想要的文字是&#34; 今天许多宝莱坞明星都发誓美食家。 Alia Bhat &#34;
这就是我想要的所有文本无论在哪里。
我能够使用find_all(&#39; div&#39;,&#39; normal&#39;)到达div,但在此之后如何从页面检索所有文本元素。
如果您想了解更多信息,请与我们联系。
答案 0 :(得分:1)
要从beautifulsoup中的某个元素中提取text
,您可以使用.text
属性:
>>> t = """<div class="normal" id="foo"> Many <a href ='/some link' target = 'blank'>Bollywood</a> stars today are avowed foodies <a href = 'link2'>Ranbir Kapoor</a> Alia Bhat </div>"""
>>> bs = BeautifulSoup(t)
>>> print(bs.find('div').text)
Many Bollywood stars today are avowed foodies Ranbir Kapoor Alia Bhat