我必须解析一些HTML。但是,它格式不正确..因为您可以看到文本“Cowabunga”不包含在任何HTML元素中。
from lxml.html import fromstring
from lxml.cssselect import CSSSelector
stuff = '''<p>
<span id="alpha" style="color: #999; "></span>
<span id="bravo" style="color: #999; "></span>
Cowabunga
</p>'''
l = CSSSelector ("p")
e = l(fromstring(stuff))
print e[0].text
如何使用lxml / Python编写CSSSelector来查找此文本?
由于
编辑:上面的代码给出了空白输出 - 只是一行空格 - 我需要抓住“Cowabunga”
答案 0 :(得分:2)
这是混合内容所以它总是有点粗糙。 e[0].text_content()
将获得您示例中的所有文字。