我正在开发一个全文搜索引擎,用于索引流行的二进制格式。我知道已经存在这些问题(和解决方案),但我发现很难找到一个:
答案 0 :(得分:1)
.doc
个文件的纯python模块。.doc
文件中提取文本:antiword和catdoc(可能还有其他文件)。如果软件包安装在您的共享主机上,您可以使用subprocess
来支持这些工具。可通过Cygwin在Windows上获得。subprocess
执行。答案 1 :(得分:0)
如果在服务器端您可以使用OpenOffice,则可以使用unoconv: Convert between any document format supported by OpenOffice
答案 2 :(得分:0)
一种可能的解决方案是使用谷歌文档从二进制.doc文件中提取文本内容。您将文档上传到谷歌文档,然后下载文本内容。这是一个相当慢的过程,但它是我所知道的唯一“纯Python”解决方案,因为除了网络访问之外它不需要任何外部工具。如果允许您在主机上安装外部工具,如catdoc或antiword是一个更好的解决方案。
答案 3 :(得分:0)
Textract为每种文件使用默认工具。