我正在尝试将.doc文件格式转换为.html文件格式。我已经在Python中使用docx2html将.docx文件转换为.html但我转换.doc格式文件时遇到问题。我尝试使用Python中的子进程将.doc转换为.docx但是我在MAC OS X上并且子进程不在MAC上工作。我的问题是我应该只在Python中这样做。有没有办法做到这一点?感谢
P.S。当我使用subprocess将doc转换为docx时,我收到此错误:
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/subprocess.py", line 522, in call
return Popen(*popenargs, **kwargs).wait()
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/subprocess.py", line 710, in __init__
errread, errwrite)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/subprocess.py", line 1335, in _execute_child
raise child_exception
OSError: [Errno 2] No such file or directory
答案 0 :(得分:0)
只需将您的doc文件转换为docx。您可以使用此html解析Python库,Beautiful Soup。
或使用this 它将格式化的文本/单词文件转换为简单的HTML标记,保留粗体,斜体,链接和段落,但不为字体大小和面添加标记。正是我需要节省一些时间。