使用python将.doc文件转换为HTML

时间:2014-06-19 14:09:46

标签: python python-2.7 python-3.x

我有一堆.doc文件(不是.docx),我想将它们转换为HTML文件。 我尝试了python docx2html 模块,但它只支持.docx文件,而不支持doc。 那我怎么能实现呢?

2 个答案:

答案 0 :(得分:0)

只需将您的doc文件转换为docx即可。你可能想看看这个。 How do you convert a Word Document into very simple html in Python?

答案 1 :(得分:0)

我遇到了同样的问题,并通过使用soffice将LibreOffice的subprocess.call调用到我的Python模块中来解决了这个问题。有了soffice,您可以直接将doc转换为html

但是我必须告知,使用此解决方案,outputfile.html可能会丢失某些格式样式。 就我而言,它保留了字体,字体大小和运行(粗体,斜体等),这对我来说是必不可少的。

import subprocess

# Assuming `filename` has already been assigned for input file name
subprocess.call(['soffice', '--headless', '--convert-to', 'html', filename])

这将在同一目录中生成一个具有相同名称的html文档。

然后可以继续使用必要的CSS重新设置.html文件的样式。 希望对您有帮助