使用python脚本解析.doc(Word)文件(Unix)

时间:2013-01-29 14:01:49

标签: python ms-word

  

可能重复:
  extracting text from MS word files in python

我想解析(为了使用表达式执行搜索)带有python脚本的.doc文件。它在unix机器上运行。

有人可以帮忙吗?

2 个答案:

答案 0 :(得分:3)

您可以查看此项目:python-docx。 下载库后,您可以在shell中运行python example-extracttext.py docfile.docx textfile.txt | grep some-expression。当然,您还可以在必要时在python代码中进行更复杂的搜索。

python-docx的缺点是它目前只支持ms-Word 2007/2008,如果这涉及到你,我推荐antiword,它支持Microsoft Word版本2,6,7,97,2000,2002实际上,我一直在我的vimrc中使用它,以便能够在VIM编辑器中查看ms-word文件。虽然它不是python脚本,但可以很容易地从Python调用它。

答案 1 :(得分:3)

您可以使用PyUno

样品,

# HelloWorld python script for the scripting framework

def HelloWorldPython( ):
    """Prints the string 'Hello World(in Python)' into the current document"""
#get the doc from the scripting context which is made available to all scripts
    model = XSCRIPTCONTEXT.getDocument()
#get the XText interface
    text = model.Text
#create an XTextRange at the end of the document
    tRange = text.End
#and set the string
    tRange.String = "Hello World (in Python)"
    return None

其他,PyUNO samples