如何使用BeautifulSoup获取over-line标签内的内容

时间:2017-10-06 18:03:19

标签: beautifulsoup html-parsing

我想从HTML代码段中提取内容(“_ The_important_content_”),如下所示:

sudo ldconfig -v command

我的代码只是:

<div
                                            class="
                                            a:2
                                            c:gray
                                            m:da
                                        "
                                    >
                                         _The_important_content_
                                    </div>

但是因为“class”字段包含新的行符号并且被扩展为多行以使BeautifulSoup无法匹配,所以代码不返回任何内容。如何指定正确的类字段并获取内容?

有许多标签具有相同的“类”值和其他“类”值,但我想从具有该特定“类”值的标签中提取内容。

1 个答案:

答案 0 :(得分:0)

试试这个:

html='''
<div
            class="
            a:2
            c:gray
            m:da
        "
    >
         _The_important_content_
    </div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"lxml")
item = soup.select("[class^=]")[0].text
print(item.strip())

结果:

_The_important_content_