Question

我正在使用lxml获取标记，如下所示：

el = doc.get_element_by_id('productDescription')

根据我的理解el只包含该标记及其子标记。

当我使用el.iterdescendants()时，我会在我正在提取的主标签之外获取标签！这怎么可能？（这是amazon.com所以DOM很好）。

 el = doc.get_element_by_id('productDescription')
 for j in el.iterdescendants():
     print j.tag

提取标签的正确方法是什么，只适用于后代？

Answer 1

您应该使用CSSSelector

import CSSSelector

因为这更可靠!!!