我使用lxml来解析Python中的html文件。
我使用cssselect。 这样的事情:
from lxml.html import parse
page = parse('http://.../').getroot()
img = page.cssselect('div.photo cover div.outer a') # problem
但我有一个问题。 HTML中的类名中有空格:
<div class="photo cover"><div class=outer>
<a href=...
没有它们一切都很好。我该如何解析它(我无法编辑HTML代码)?
答案 0 :(得分:1)
要将div
与photo
和cover
类匹配,请使用div.photo.cover
。
img = page.cssselect('div.photo.cover div.outer a')
不要将thinkg class="photo cover"
作为具有photo cover
值的类属性,而应将其视为以photo
和cover
作为值的类属性。