Question

我使用lxml来解析Python中的html文件。

我使用cssselect。这样的事情：

from lxml.html import parse

page = parse('http://.../').getroot()
img = page.cssselect('div.photo cover div.outer a') # problem

但我有一个问题。 HTML中的类名中有空格：

<div class="photo cover"><div class=outer>
<a href=...

没有它们一切都很好。我该如何解析它（我无法编辑HTML代码）？

Answer 1

要将div与photo和cover类匹配，请使用div.photo.cover。

img = page.cssselect('div.photo.cover div.outer a')

不要将thinkg class="photo cover"作为具有photo cover值的类属性，而应将其视为以photo和cover作为值的类属性。