import docx2txt
my_text=docx2txt.process("file1.docx")
print(my_text)
当我想从此代码中读取docx文件时,它显示以下错误:
File "/usr/lib/python3.5/zipfile.py", line 1093, in _RealGetContents
raise BadZipFile("File is not a zip file")
zipfile.BadZipFile: File is not a zip file
答案 0 :(得分:2)
正如@cowbert在评论部分中提到的,您的文件可能已损坏或者是zip格式。您提供的代码是正确的。您还可以使用支持.docx
文件的textract:
import textract
text = textract.process("path/to/file.extension")
这个包构建在几个python包和其他源库之上。安装后,默认情况下会使用此软件包安装several packeges(包括docx2txt)。