我想从HTML代码段中提取内容(“_ The_important_content_”),如下所示:
sudo ldconfig -v command
我的代码只是:
<div
class="
a:2
c:gray
m:da
"
>
_The_important_content_
</div>
但是因为“class”字段包含新的行符号并且被扩展为多行以使BeautifulSoup无法匹配,所以代码不返回任何内容。如何指定正确的类字段并获取内容?
有许多标签具有相同的“类”值和其他“类”值,但我想从具有该特定“类”值的标签中提取内容。
答案 0 :(得分:0)
试试这个:
html='''
<div
class="
a:2
c:gray
m:da
"
>
_The_important_content_
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"lxml")
item = soup.select("[class^=]")[0].text
print(item.strip())
结果:
_The_important_content_