Beautiful Soup 和包含 <text> 标签的文档

时间:2021-05-26 14:27:32

标签: python beautifulsoup

我正在尝试使用包含 <text> 元素的 Beautiful Soup 从准 HTML 文档中导航和提取文本。每个 <text> 元素都有我需要访问的子元素。

示例文档

<doc>
  <text>
    <content1>Some text here</content1>
    <content2>Some other text</content2>
  </text>
</doc>

所以我不能使用

soup.doc.text.content1.text

导航树,因为 .text 在 BS Tag 元素中具有特殊含义,并返回所有子元素的串联文本。

lxml 对此有一个“解决方案”,但我找不到与 BS 类似的任何内容:

root.doc['text'].content1.text

1 个答案:

答案 0 :(得分:0)

在元素的父元素上使用 find() 函数。

soup.doc.find('text',recursive=False).content1.text