Question

我使用lxml在Python中编写了一个小的html-parser。这非常有用，但我有一个问题。

我有以下代码：

tags = doc.xpath('//table//tr/td[@align="right"]/b')
for tag in tags:
    print(x.text.strip())

工作正常。但是，如果 元素中包含标记，请执行以下操作：

<b> first-half <br>
    second-half </b>

此代码只会将first-half打印到代码中。

即使有代码，如何才能获得 中的所有文字？

感谢。

Answer 1

使用text_content()提取标记中的所有非标记文本。将x.text替换为x.text_content()。