应用错误收集

时间：2011-07-28 10:14:22

标签： python

可能重复：
solution to convert PDFs, DOCs, DOCXs into a textual format with python

我正在制作一个文档搜索引擎，它可以对流行的二进制格式进我正在为此目的寻找python库。

可靠的转换器证明太难找到。 PyPDF永远不会准确。请推荐：

答案 0 :(得分：1)

您可以通过解压缩读取.docx，然后在生成的文件夹结构中生根。见How can I search a word in a Word 2007 .docx file?。
如果pyPDF不适合您，您可以使用pdftotext作为子流程。
.doc可能是最难的。 COM脚本是一个选项吗？也就是说，要求Word打开文件并将其导出为文本？有一个linux实用程序extracting text from MS word files in python。

答案 1 :(得分：1)

您可以尝试使用Open Office。

它的转换技能高于平均水平。要编辑PDF文档，您需要安装pdf import extension。

有一些扩展可以使用python，例如python-uno bridge，但我遇到了困难，并且通常会将开放式办公室称为子进程。