我是lxml的新手,想要解析“请求”检索到的页面。 我的HTML是这样的:
<html>
<body>
<h1 class="entry-title">
<a href="http://a.com" rel="bookmark">
bla bla bla
</a>
</h1>
</body>
</html>
我想要一个看起来像这样的字符串:
"""<h1 class="entry-title">
<a href="http://google.com" rel="bookmark">
bla bla bla
</a>
</h1>"""
python 3.4中的代码是什么?
答案 0 :(得分:0)
尝试这样的事情:
from lxml.html import document_fromstring
from lxml.html import tostring
doc = document_fromstring(YOUR_HTML_STRING)
h1 = tostring(doc.xpath("//h1")[0])