我有一堆.doc文件(不是.docx),我想将它们转换为HTML文件。 我尝试了python docx2html 模块,但它只支持.docx文件,而不支持doc。 那我怎么能实现呢?
答案 0 :(得分:0)
只需将您的doc文件转换为docx即可。你可能想看看这个。 How do you convert a Word Document into very simple html in Python?
答案 1 :(得分:0)
我遇到了同样的问题,并通过使用soffice
将LibreOffice的subprocess.call
调用到我的Python模块中来解决了这个问题。有了soffice,您可以直接将doc
转换为html
。
但是我必须告知,使用此解决方案,outputfile.html
可能会丢失某些格式样式。
就我而言,它保留了字体,字体大小和运行(粗体,斜体等),这对我来说是必不可少的。
import subprocess
# Assuming `filename` has already been assigned for input file name
subprocess.call(['soffice', '--headless', '--convert-to', 'html', filename])
这将在同一目录中生成一个具有相同名称的html文档。
然后可以继续使用必要的CSS重新设置.html
文件的样式。
希望对您有帮助