更大的背景:我们正在开发一个Intranet门户网站的搜索引擎,该搜索引擎需要能够在所有办公室类型中进行搜索:doc,docx,xls,xlsx,ppt和pptx。在搜索算法已经到位的情况下,我们使用Office自动化实现了索引器;但是,客户担心的是,这是1,容易出错,2,不是微软推荐的(并且也未在其许可中涵盖)。
我已经在SO上阅读了这方面的先前答案,但是它需要我们集成大量不同的库来覆盖所有边缘,我们没有资源这样做。
因此,我们正在寻找一个简单的Web服务,我们可以向其提交任何这些文档,并返回一个简单的纯文本(或html,甚至PDF - 我们都有解析器)输出。
是否有任何此类服务(免费或付费)涵盖上述所有文件格式?
非常感谢。
答案 0 :(得分:2)
我建议尝试Apache Tika - 它是免费和开源的。它允许从MS Office文件格式(以及其他流行格式)中提取文本内容。有一个服务器应用程序,您可以在自己的服务器上运行。
答案 1 :(得分:1)
我注意到该服务,但是如果您可以为DOC / DOCX,XLS / XLSX和PPT / PPTX管理和部署三个.NET程序集。然后你可以分别尝试Aspose components - Aspose.Words,Aspose.Cells和Aspose.Slides。这些DLL不需要在您的服务器上安装MS Office,它们可以在任何Windows操作系统和32位/ 64位环境中正常运行。您可能还会看到documentation。这些组件还提供了许多高级功能来处理文档元素。请查看这可能对您的方案有所帮助。
披露:我在Aspose担任开发人员传播者。