我使用lxml在Python中编写了一个小的html-parser。这非常有用,但我有一个问题。
我有以下代码:
tags = doc.xpath('//table//tr/td[@align="right"]/b')
for tag in tags:
print(x.text.strip())
工作正常。但是,如果<br>
元素中包含<b>
标记,请执行以下操作:
<b> first-half <br>
second-half </b>
此代码只会将first-half
打印到<b>
代码中。
即使有<b>
代码,如何才能获得<br>
中的所有文字?
感谢。
答案 0 :(得分:5)
使用text_content()
提取标记中的所有非标记文本。将x.text
替换为x.text_content()
。