通过lxml.html解析整个标记

时间:2014-12-07 14:08:04

标签: python-requests python-3.4 lxml.html

我是lxml的新手,想要解析“请求”检索到的页面。 我的HTML是这样的:

<html>
<body>
<h1 class="entry-title">
    <a href="http://a.com" rel="bookmark">
    bla bla bla
    </a>
</h1>
</body>
</html>

我想要一个看起来像这样的字符串:

"""<h1 class="entry-title">
    <a href="http://google.com" rel="bookmark">
    bla bla bla
    </a>
</h1>"""

python 3.4中的代码是什么?

1 个答案:

答案 0 :(得分:0)

尝试这样的事情:

from lxml.html import document_fromstring
from lxml.html import tostring
doc = document_fromstring(YOUR_HTML_STRING)
h1 = tostring(doc.xpath("//h1")[0])