如何确定是否扫描.pdf文件的内容

时间:2010-03-04 19:31:32

标签: php zend-framework zend-pdf

所以,我有一个.pdf文件,我需要能够确定它是否是通过扫描成PDF而创建的。我正在尝试确定它是否是一个我可以显示为文本的PDF格式。

我有PHP& Zend在我的处置。 我想我可以使用Zend的

$pdf->properties['Producer']

但我不是百分百肯定。

有没有办法确定我正在处理什么样的.pdf文件?

2 个答案:

答案 0 :(得分:3)

听起来很难。有许多不同的“制作人”ID,其中许多支持从任何类型的源生成PDF,无论是扫描,来自传真,文字处理器或诸如此类的东西。有很多方法可以创建PDF文件,你永远无法追溯到哪里来的。

如果您想确定是否可以将其显示为文本,为什么不尝试从中提取一些实际文本?如果它被扫描(或任何其他类型的嵌入图像),它应该没有或只有很少的文本内容。但是,有一些OCR程序可以创建一个扫描的PDF,其中也有机器可读的文本。你想怎么处理?

你最终的目标是什么?

答案 1 :(得分:0)

要确定是否已扫描PDF文件,请使用Adobe Acrobat Reader打开它。

检查是否可以选择文本,这表示文档未被扫描。

enter image description here

但是,如果您选择文本的尝试还原为图形选择框,则表示文档已被扫描。

enter image description here