Question

我正在尝试解析html片段：

<body><h1>title</h1><img src=""></body>

我使用lxml.html.fromstring。它让我疯狂，因为它不断剥离我片段的<body>标签：

 > lxml.html.fromstring('<html><h1>a</h1></html>').tag
 'html'
 > lxml.html.fromstring('<div><h1>a</h1></div>').tag
 'div'
 > lxml.html.fromstring('<body><h1>a</h1></body>').tag
 'h1'

我还尝试了document_fromstring，fragment_fromstring，clean_html和page_structure=False等等......没有用。

我需要使用lxml，因为我将html片段传递给PyQuery。

我只是希望lxml不会弄乱我的html片段。有可能吗？

Answer 1

.fragment_fromstring()也会删除<html>标记;基本上，每当你不有HTML文档（<html>顶级元素和/或doctype）时，.fromstring()都会回退到.fragment_fromstring()并且该方法始终会删除<html>和<body>标记。

解决方法是告诉.fragment_fromstring()为您提供<body> 父标记：

>>> lxml.html.fragment_fromstring('<body><h1>a</h1></body>', create_parent='body')
<Element body at 0x10d06fbf0>

这不会保留原始<body>代码的任何属性。

另一种解决方法是使用.document_fromstring()方法，该方法会将您的文档包装在<html>标记中，然后您可以将其删除：

>>> lxml.html.document_fromstring('<body><h1>a</h1></body>')[0]
<Element body at 0x10d06fcb0>

此保留<body>上的属性：

>>> lxml.html.document_fromstring('<body class="foo"><h1>a</h1></body>')[0].attrib
{'class': 'foo'}

在第一个示例中使用.document_fromstring()函数给出：

>>> body = lxml.html.document_fromstring('<body><h1>title</h1><img src=""></body>')[0]
>>> lxml.html.tostring(body)
'<body><h1>title</h1><img src=""></body>'

如果您只想在没有 HTML标记时执行此操作，请执行lxml.html.fromstring()执行的操作并测试完整文档：

htmltest = lxml.html._looks_like_full_html_bytes if isinstance(inputtext, str) else lxml.html._looks_like_full_html_unicode
if htmltest(inputtext):
    tree = lxml.html.fromstring(inputtext)
else:
    tree = lxml.html.document_fromstring(inputtext)[0]

解析lxml中的html主体片段

1 个答案: