我正在尝试解析html片段:
<body><h1>title</h1><img src=""></body>
我使用lxml.html.fromstring
。它让我疯狂,因为它不断剥离我片段的<body>
标签:
> lxml.html.fromstring('<html><h1>a</h1></html>').tag
'html'
> lxml.html.fromstring('<div><h1>a</h1></div>').tag
'div'
> lxml.html.fromstring('<body><h1>a</h1></body>').tag
'h1'
我还尝试了document_fromstring
,fragment_fromstring
,clean_html
和page_structure=False
等等......没有用。
我需要使用lxml,因为我将html片段传递给PyQuery。
我只是希望lxml不会弄乱我的html片段。有可能吗?
答案 0 :(得分:6)
.fragment_fromstring()
也会删除<html>
标记;基本上,每当你不有HTML文档(<html>
顶级元素和/或doctype)时,.fromstring()
都会回退到.fragment_fromstring()
并且该方法始终会删除<html>
和<body>
标记。
解决方法是告诉.fragment_fromstring()
为您提供<body>
父标记:
>>> lxml.html.fragment_fromstring('<body><h1>a</h1></body>', create_parent='body')
<Element body at 0x10d06fbf0>
这不会保留原始<body>
代码的任何属性。
另一种解决方法是使用.document_fromstring()
方法,该方法会将您的文档包装在<html>
标记中,然后您可以将其删除:
>>> lxml.html.document_fromstring('<body><h1>a</h1></body>')[0]
<Element body at 0x10d06fcb0>
此 保留<body>
上的属性:
>>> lxml.html.document_fromstring('<body class="foo"><h1>a</h1></body>')[0].attrib
{'class': 'foo'}
在第一个示例中使用.document_fromstring()
函数给出:
>>> body = lxml.html.document_fromstring('<body><h1>title</h1><img src=""></body>')[0]
>>> lxml.html.tostring(body)
'<body><h1>title</h1><img src=""></body>'
如果您只想在没有 HTML标记时执行此操作,请执行lxml.html.fromstring()
执行的操作并测试完整文档:
htmltest = lxml.html._looks_like_full_html_bytes if isinstance(inputtext, str) else lxml.html._looks_like_full_html_unicode
if htmltest(inputtext):
tree = lxml.html.fromstring(inputtext)
else:
tree = lxml.html.document_fromstring(inputtext)[0]