Question

我是lxml的新手，想要解析“请求”检索到的页面。我的HTML是这样的：

<html>
<body>
<h1 class="entry-title">
    <a href="http://a.com" rel="bookmark">
    bla bla bla
    </a>
</h1>
</body>
</html>

我想要一个看起来像这样的字符串：

"""<h1 class="entry-title">
    <a href="http://google.com" rel="bookmark">
    bla bla bla
    </a>
</h1>"""

python 3.4中的代码是什么？

Answer 1

尝试这样的事情：

from lxml.html import document_fromstring
from lxml.html import tostring
doc = document_fromstring(YOUR_HTML_STRING)
h1 = tostring(doc.xpath("//h1")[0])

通过lxml.html解析整个标记

1 个答案: