使用lxml.etree读取元素中的文本

时间:2013-09-23 00:34:35

标签: python lxml elementtree

我使用的是lxml libray的Python版本。我目前正在尝试解析表中的文本,但遇到的问题是某些文本是链接。

例如,其中一个单元格可能如下所示:

<td>
    Can I kick it, <a>to all the people</a> who can quest like a <a>tribe</a> does
</td>

在解析html之后说,td元素存储为foo。然后foo.text将不显示整个文本,只显示非链接的部分。此外,如果我使用[i.text for i in foo.getchildren()]找到链接文本,我就不再知道放置非链接文本和链接文本的顺序。

有没有一种简单的方法来解决这个问题?

1 个答案:

答案 0 :(得分:1)

在搜索了一个小时之后,在发布此问题的2分钟内,我找到了解决方案。

使用方法foo.text_content(),这将显示所需内容。