我正在使用lxml.html
库来解析HTML文档。
我找到了一个特定的标签,我称之为content_tag
,我希望更改其内容(即<div>
和</div>
之间的文字),新内容为字符串有一些html,说它是'Hello <b>world!</b>'
。
我该怎么做?我尝试了content_tag.text = 'Hello <b>world!</b>'
,但随后它转义了所有html标记,将<
替换为<
等。
我想在没有转义任何HTML的情况下注入文本。我怎么能这样做?
答案 0 :(得分:8)
这是一种方式:
#!/usr/bin/env python2.6
from lxml.html import fromstring, tostring
from lxml.html import builder as E
fragment = """\
<div id="outer">
<div id="inner">This is div.</div>
</div>"""
div = fromstring(fragment)
print tostring(div)
# <div id="outer">
# <div id="inner">This is div.</div>
# </div>
div.replace(div.get_element_by_id('inner'), E.DIV('Hello ', E.B('world!')))
print tostring(div)
# <div id="outer">
# <div>Hello <b>world!</b></div></div>
另请参阅:http://lxml.de/lxmlhtml.html#creating-html-with-the-e-factory
编辑:所以,我应该早些时候承认我并不熟悉lxml。我简要地查看了文档和来源,但没有找到一个干净的解决方案。也许,更熟悉的人会停下来,让我们两个都做好。
与此同时,这似乎有效,但未经过充分测试:
import lxml.html
content_tag = lxml.html.fromstring('<div>Goodbye.</div>')
content_tag.text = '' # assumes only text to start
for elem in lxml.html.fragments_fromstring('Hello <b>world!</b>'):
if type(elem) == str: #but, only the first?
content_tag.text += elem
else:
content_tag.append(elem)
print lxml.html.tostring(content_tag)
再次修改,此版本删除了文字和子广告
somehtml = 'Hello <b>world!</b>'
# purge element contents
content_tag.text = ''
for child in content_tag.getchildren():
content_tag.remove(child)
fragments = lxml.html.fragments_fromstring(somehtml)
if type(fragments[0]) == str:
content_tag.text = fragments.pop(0)
content_tag.extend(fragments)
答案 1 :(得分:0)
假设content_tag没有任何子元素,您可以这样做:
from lxml import html
from lxml.html.builder import B
...
content_tag.text = 'Hello '
content_tag.append(B('world!'))
print html.tostring(content_tag)
答案 2 :(得分:0)
在摆弄后,我找到了这个解决方案:
fragments = lxml.html.fragments_fromstring(<string with tags to inject>)
last = None
for frag in fragments:
if isinstance(frag, lxml.etree._Element):
content_tag.append(frag)
last = frag
else:
if last:
last.tail = frag
else:
content_tag.text = frag