Question

我正在尝试使用包含 <text> 元素的 Beautiful Soup 从准 HTML 文档中导航和提取文本。每个 <text> 元素都有我需要访问的子元素。

示例文档

<doc>
  <text>
    <content1>Some text here</content1>
    <content2>Some other text</content2>
  </text>
</doc>

所以我不能使用

soup.doc.text.content1.text

导航树，因为 .text 在 BS Tag 元素中具有特殊含义，并返回所有子元素的串联文本。

lxml 对此有一个“解决方案”，但我找不到与 BS 类似的任何内容：

root.doc['text'].content1.text

Answer 1

在元素的父元素上使用 find() 函数。

soup.doc.find('text',recursive=False).content1.text