PHP - 从不同文件格式中提取文本Word / Excel / Powerpoint / PDF / RTF

时间:2012-06-16 08:30:01

标签: php excel pdf ms-word powerpoint

我正在开发一个Web应用程序,用户可以上传不同的文件MS Word(.doc和.docx),Excel(.xls和.xlsx),Power point,PDF,文本文件和RTF文件(.rtf) 。

作为应用程序流程的一部分,我想在IFrame中显示文件内容的预览,HTML最好,但我可以使用PHP类来使用文本

我使用的方法是:

  1. 确定每个文件的扩展名

  2. 以不同方式处理每个文件

  3. 显示文字或HMTL

  4. 有没有这样做的图书馆?

    更新

    将我的最终解决方案作为答案发布,而不是更新问题

2 个答案:

答案 0 :(得分:3)

没有单一的库可以解决问题所以我使用以下库为每种文件类型解决了这个问题:

a)MS Word文档 - Live Docx(http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/)

b)MS Excel - PHP Excel(http://phpexcel.codeplex.com/)

c)来自PDF的文本 - 来自此Pastebin http://pastebin.com/hRviHKp1

的类

d)Powerpoint - 仍在进行中

我在我的博客http://ssmusoke.wordpress.com/2012/06/16/display-contents-of-different-file-formats-wordexcelpowerpointpdfrtf-as-html/

上提供了更多详细信息

答案 1 :(得分:0)

几年前我有类似的任务,我们最终在服务器模式下使用OpenOffice和ImageMagick来检索PowerPoint文档的缩略图图像。对于某种演示文稿库。

基本上,我们的想法是运行OpenOffice并将文档转换为PDF,然后使用ImageMagick创建该PDF第一页的缩略图。

这个人在这里使用OpenOffice和另一个工具来转换文档:https://stackoverflow.com/a/1046159/626621(可以帮到你)

我认为,这样做的好处是,作为文档预览的图像对用户而言比对文本更有说服力。