有没有办法区分本机和扫描的pdf?

时间:2019-06-22 03:48:31

标签: pdf

我正在使用ocr技术从包含图像的pdf中提取文本,但是我只想在无法搜索pdf的情况下使用ocr,否则我想使用pdfminer或类似的库。

是否可以区分已经可以搜索的pdf和不能搜索的pdf?

1 个答案:

答案 0 :(得分:0)

请务必清楚,“ Native PDF”实际上不是PDF标准中的术语,我已经看到有人使用它来表示直接在PDF创作软件中创建的PDF,因此在其中包含文本和矢量图形之类的内容例如。

这实际上取决于您对所接收的原始PDF文档的了解。例如,如果您知道所有本机PDF都将始终由文本组成,那么您可以简单地从文档中提取文本,如果发现有任何考虑,则将其视为本机,否则将其视为已扫描。

如果您知道所有“扫描的PDF”将始终由一定大小和一定压缩率的图像组成,则可以检查文档中的那些属性并对其进行相应的分类。

如果您根本不了解源输入,情况将变得更加复杂。您也可以查看元数据之类的内容,例如查找标识一个与另一个相对应的关键字。

最终,如果您对输入类型有一些限制,可以期望分类非常简单。

一个很好的后续问题是为什么您需要以这种方式区分文档?如果我们对此有所了解,也许可以对这种方法发表评论。