如何在python中将html转换为word docx?

时间:2017-03-14 06:33:13

标签: python html ubuntu-16.04 doc

import pypandoc
output = pypandoc.convert_file('file.html', 'docx', outputfile="file1.docx")
assert output == ""

它正在生成新的docx文件,但忽略了样式。

任何人都可以告诉我如何使用样式生成新的docx文件吗?

提前感谢您的回答。

2 个答案:

答案 0 :(得分:2)

在Windows中,最简单的方法是使用pywin32插件来使用MS Word。 Here is good使用示例代码回答。

使用pypandoc:

output = pypandoc.convert(source='/path/to/file.html', format='html', to='docx', outputfile='/path/to/output.docx', extra_args=['-RTS'])

阅读this了解extra_args。

答案 1 :(得分:2)

你也可以在python3.x中使用:

from htmldocx import HtmlToDocx

new_parser = HtmlToDocx()
new_parser.parse_html_file("html_filename", "docx_filename")
#Files extensions not needed, but tolerated