我正在使用lxml获取标记,如下所示:
el = doc.get_element_by_id('productDescription')
根据我的理解el
只包含该标记及其子标记。
当我使用el.iterdescendants()
时,我会在我正在提取的主标签之外获取标签!
这怎么可能? (这是amazon.com所以DOM很好)。
el = doc.get_element_by_id('productDescription')
for j in el.iterdescendants():
print j.tag
提取标签的正确方法是什么,只适用于后代?
答案 0 :(得分:0)
您应该使用CSSSelector
import CSSSelector
因为这更可靠!!!