是否可以使用PHP从MS office文件和/或PDF中提取元信息?

时间:2010-01-19 18:55:05

标签: php pdf metadata ms-office

所以我有文件......

.doc
.docx
.xls
.xlsx
and .pdf

在我的服务器上。

是否有可能(如果是,如何)使用PHP从这些文件中提取元数据? 我正在寻找作者,关键词,标题等等......

在办公室文档中,它是与文档属性一起存储的信息(文件...属性... 2003年总结,准备... 2007年的属性)。

在PDF中,它是在文档属性中找到的信息。

这是Windows服务器上的

1 个答案:

答案 0 :(得分:2)

几年前,我已经设法在linux系统上使用XPDF提取了大量的元信息。但是现在,我会说Zend_PDF是你最好的选择。我自己没有使用它,但看起来很好,并承诺你需要的一切。似乎没有库依赖项。

对于Word .DOC,如果找不到更好的方法,请插入OpenOffice服务器实例/命令行并将文件转换为ODT,即XML和可解析的ODT。如果不可能为每个宏提取元数据 - 它应该是,但我不知道它有多少工作。 This OpenOffice Forum entry为自动转换提供了大量的起点。

...... X格式是某种XML,因此很容易从它们中获取元数据。或者,如果他们传输元数据,您也应该能够在这里使用OpenOffice的转换过滤器。