所以,我有一个.pdf文件,我需要能够确定它是否是通过扫描成PDF而创建的。我正在尝试确定它是否是一个我可以显示为文本的PDF格式。
我有PHP& Zend在我的处置。 我想我可以使用Zend的
$pdf->properties['Producer']
但我不是百分百肯定。
有没有办法确定我正在处理什么样的.pdf文件?
答案 0 :(得分:3)
听起来很难。有许多不同的“制作人”ID,其中许多支持从任何类型的源生成PDF,无论是扫描,来自传真,文字处理器或诸如此类的东西。有很多方法可以创建PDF文件,你永远无法追溯到哪里来的。
如果您想确定是否可以将其显示为文本,为什么不尝试从中提取一些实际文本?如果它被扫描(或任何其他类型的嵌入图像),它应该没有或只有很少的文本内容。但是,有一些OCR程序可以创建一个扫描的PDF,其中也有机器可读的文本。你想怎么处理?
你最终的目标是什么?
答案 1 :(得分:0)