Question

我想从HTML代码段中提取内容（“_ The_important_content_”），如下所示：

sudo ldconfig -v command

我的代码只是：

<div
                                            class="
                                            a:2
                                            c:gray
                                            m:da
                                        "
                                    >
                                         _The_important_content_
                                    </div>

但是因为“class”字段包含新的行符号并且被扩展为多行以使BeautifulSoup无法匹配，所以代码不返回任何内容。如何指定正确的类字段并获取内容？

有许多标签具有相同的“类”值和其他“类”值，但我想从具有该特定“类”值的标签中提取内容。

Answer 1

试试这个：

html='''
<div
            class="
            a:2
            c:gray
            m:da
        "
    >
         _The_important_content_
    </div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"lxml")
item = soup.select("[class^=]")[0].text
print(item.strip())

结果：

_The_important_content_

如何使用BeautifulSoup获取over-line标签内的内容

1 个答案: