lxml - 在html中忽略<br/>标签

时间:2013-02-28 21:03:52

标签: python html-parsing lxml

我使用lxml在Python中编写了一个小的html-parser。这非常有用,但我有一个问题。

我有以下代码:

tags = doc.xpath('//table//tr/td[@align="right"]/b')
for tag in tags:
    print(x.text.strip())

工作正常。但是,如果<br>元素中包含<b>标记,请执行以下操作:

<b> first-half <br>
    second-half </b>

此代码只会将first-half打印到<b>代码中。

即使有<b>代码,如何才能获得<br>中的所有文字?

感谢。

1 个答案:

答案 0 :(得分:5)

使用text_content()提取标记中的所有非标记文本。将x.text替换为x.text_content()