可能重复:
solution to convert PDFs, DOCs, DOCXs into a textual format with python
我正在制作一个文档搜索引擎,它可以对流行的二进制格式进我正在为此目的寻找python库。
可靠的转换器证明太难找到。 PyPDF永远不会准确。请推荐:
答案 0 :(得分:1)
.docx
,然后在生成的文件夹结构中生根。见How can I search a word in a Word 2007 .docx file?。.doc
可能是最难的。 COM脚本是一个选项吗?也就是说,要求Word打开文件并将其导出为文本?有一个linux实用程序extracting text from MS word files in python。答案 1 :(得分:1)
您可以尝试使用Open Office。
它的转换技能高于平均水平。要编辑PDF文档,您需要安装pdf import extension。
有一些扩展可以使用python,例如python-uno bridge,但我遇到了困难,并且通常会将开放式办公室称为子进程。
刚刚注意到您在以下位置打开了重复的问题: solution to convert PDFs, DOCs, DOCXs into a textual format with python ...