我正在尝试使用包含 <text>
元素的 Beautiful Soup 从准 HTML 文档中导航和提取文本。每个 <text>
元素都有我需要访问的子元素。
示例文档
<doc>
<text>
<content1>Some text here</content1>
<content2>Some other text</content2>
</text>
</doc>
所以我不能使用
soup.doc.text.content1.text
导航树,因为 .text 在 BS Tag 元素中具有特殊含义,并返回所有子元素的串联文本。
lxml 对此有一个“解决方案”,但我找不到与 BS 类似的任何内容:
root.doc['text'].content1.text
答案 0 :(得分:0)
在元素的父元素上使用 find()
函数。
soup.doc.find('text',recursive=False).content1.text