lxml python - 提取标记并迭代子项

时间:2012-01-13 04:57:53

标签: python lxml

我正在使用lxml获取标记,如下所示:

el = doc.get_element_by_id('productDescription')

根据我的理解el只包含该标记及其子标记。

当我使用el.iterdescendants()时,我会在我正在提取的主标签之外获取标签! 这怎么可能? (这是amazon.com所以DOM很好)。

 el = doc.get_element_by_id('productDescription')
 for j in el.iterdescendants():
     print j.tag

提取标签的正确方法是什么,只适用于后代?

1 个答案:

答案 0 :(得分:0)

您应该使用CSSSelector

import CSSSelector

因为这更可靠!!!