我使用安装了Windows 7和python 3.3的计算机。 在我的组织中,我们有数千个没有组织的文件。 我想创建一个打开doc / docx文件的程序,在文本中搜索某些关键字,然后重新排列文档。 我正在寻找一种方法来搜索单词文件(doc / docx)的文本以获取某些单词,它必须在Windows上,并且必须能够搜索doc和docx。
有什么想法吗?
答案 0 :(得分:0)
在此之后你可以运行:
# Import the module
from docx import *
# Open the .docx file
document = opendocx('A document.docx')
# Search returns true if found
search(document,'your search string')
答案 1 :(得分:0)
可以使用textract库。它会照顾" doc"以及" docx"
import textract
text = textract.process("path/to/file.extension")
你甚至可以使用' antiword' (sudo apt-get install antiword)然后将doc转换为docx,然后通过docx2txt读取。
antiword filename.doc> filename.docx 最终,后端的textract正在使用反词。