Question

我正在使用python和lxml从一堆链接中获取div.article的内容。我想要div的实际html标记。但到目前为止，我只能获得删除标记的链接的text_content（）。

doc = html.fromstring(doc_text)

article = doc.cssselect("div.article")

if len(article) > 0:
    text = article[0].text_content()

    data = {
        'product':product,
        'content': text,
    }

任何人都可以帮助我获得文章[0]的标记吗？

由于

Answer 1

您可以使用节点的迭代功能并以此方式构建字符串。

def innerHTML(node): 
    buildString = ''
    for child in node:
        buildString += html.tostring(child)
    return buildString

使用lxml获取divs HTML内容

1 个答案: