如何使用lxml获取斜体和非斜体文本

时间:2017-11-10 09:18:21

标签: python xpath web-scraping lxml

我对表格中的每一行使用此命令,但我只得到非斜体的文字。

a

<em> </em元素在<td class="cardname"><a href="http://www.mtgotraders.com/store/PRM_Ball_Lightning_f.html"><em>Ball</em> <em>Lightning</em> *Foil*</a></td> 标记中包含一些文字。

Ball Lightning *Foil*

我想获得{{1}}

1 个答案:

答案 0 :(得分:0)

这是你想要的吗?无论您使用xpath还是css选择器,结果始终都是相同的。试一试:

html_content='''
<td class="cardname"><a href="http://www.mtgotraders.com/store/PRM_Ball_Lightning_f.html">
<em>Ball</em> <em>Lightning</em> *Foil*</a></td>
'''
from lxml.html import fromstring

root = fromstring(html_content)
item = root.cssselect(".cardname a")[0].text_content().strip()
item_alternative = root.xpath("//*[@class='cardname']/a")[0].text_content().strip()

print(item)
print(item_alternative)

结果:

Ball Lightning *Foil*
Ball Lightning *Foil*