所以我有文件......
.doc
.docx
.xls
.xlsx
and .pdf
在我的服务器上。
是否有可能(如果是,如何)使用PHP从这些文件中提取元数据? 我正在寻找作者,关键词,标题等等......
在办公室文档中,它是与文档属性一起存储的信息(文件...属性... 2003年总结,准备... 2007年的属性)。
在PDF中,它是在文档属性中找到的信息。
这是Windows服务器上的不。
答案 0 :(得分:2)
几年前,我已经设法在linux系统上使用XPDF提取了大量的元信息。但是现在,我会说Zend_PDF是你最好的选择。我自己没有使用它,但看起来很好,并承诺你需要的一切。似乎没有库依赖项。
对于Word .DOC,如果找不到更好的方法,请插入OpenOffice服务器实例/命令行并将文件转换为ODT,即XML和可解析的ODT。如果不可能为每个宏提取元数据 - 它应该是,但我不知道它有多少工作。 This OpenOffice Forum entry为自动转换提供了大量的起点。
...... X格式是某种XML,因此很容易从它们中获取元数据。或者,如果他们传输元数据,您也应该能够在这里使用OpenOffice的转换过滤器。