将带有TAG的HTML字符串标记为DOCX

时间:2019-07-08 13:03:41

标签: python html docx

是否可以读取诸如<i><b>HelloWorld</b></i>之类的html字符串并在单词 HelloWorld 上打印一个实际上是斜体和粗体的字符串? 让我更好地解释,我必须相信html页面中的docx文件,并且我正在使用textarea编辑器,该编辑器返回以html标签格式化的字符串,我应该找到将它们转换为单词可读格式的方法。 现在我正在使用python docx库

1 个答案:

答案 0 :(得分:0)

我不熟悉python docx库,但是粗体和斜体是“运行”(<w:r>)属性。它们可能是最容易更改的,因为它们是内联定义的。在您的xml文件中,您将需要

<w:r w:rsidRPr="000E1B98">
    <w:rPr>
        <w:b/>
        <w:i/>
    </w:rPr>
    <w:t>
        HelloWorld
    </w:t>
</w:r>

您可以在该run元素中看到粗体<w:b/>和斜体<w:i/>

那里应该有一个转换器。除非您做的是非常不寻常的事情,否则无需从头开始。