用于将MS Office文件格式(doc,docx,ppt等)转换为纯文本的Web服务?

时间:2011-07-26 20:10:01

标签: web-services ms-office xls doc

更大的背景:我们正在开发一个Intranet门户网站的搜索引擎,该搜索引擎需要能够在所有办公室类型中进行搜索:doc,docx,xl​​s,xlsx,ppt和pptx。在搜索算法已经到位的情况下,我们使用Office自动化实现了索引器;但是,客户担心的是,这是1,容易出错,2,不是微软推荐的(并且也未在其许可中涵盖)。

我已经在SO上阅读了这方面的先前答案,但是它需要我们集成大量不同的库来覆盖所有边缘,我们没有资源这样做。

因此,我们正在寻找一个简单的Web服务,我们可以向其提交任何这些文档,并返回一个简单的纯文本(或html,甚至PDF - 我们都有解析器)输出。

是否有任何此类服务(免费或付费)涵盖上述所有文件格式?

非常感谢。

2 个答案:

答案 0 :(得分:2)

我建议尝试Apache Tika - 它是免费和开源的。它允许从MS Office文件格式(以及其他流行格式)中提取文本内容。有一个服务器应用程序,您可以在自己的服务器上运行。

答案 1 :(得分:1)

我注意到该服务,但是如果您可以为DOC / DOCX,XLS / XLSX和PPT / PPTX管理和部署三个.NET程序集。然后你可以分别尝试Aspose components - Aspose.Words,Aspose.Cells和Aspose.Slides。这些DLL不需要在您的服务器上安装MS Office,它们可以在任何Windows操作系统和32位/ 64位环境中正常运行。您可能还会看到documentation。这些组件还提供了许多高级功能来处理文档元素。请查看这可能对您的方案有所帮助。

披露:我在Aspose担任开发人员传播者。