使用lxml获取divs HTML内容

时间:2013-03-11 16:06:04

标签: python lxml

我正在使用python和lxml从一堆链接中获取div.article的内容。我想要div的实际html标记。但到目前为止,我只能获得删除标记的链接的text_content()。

doc = html.fromstring(doc_text)

article = doc.cssselect("div.article")

if len(article) > 0:
    text = article[0].text_content()

    data = {
        'product':product,
        'content': text,
    }

任何人都可以帮助我获得文章[0]的标记吗?

由于

1 个答案:

答案 0 :(得分:4)

您可以使用节点的迭代功能并以此方式构建字符串。

def innerHTML(node): 
    buildString = ''
    for child in node:
        buildString += html.tostring(child)
    return buildString