应用错误收集

请务必清楚，“ Native PDF”实际上不是PDF标准中的术语，我已经看到有人使用它来表示直接在PDF创作软件中创建的PDF，因此在其中包含文本和矢量图形之类的内容例如。

这实际上取决于您对所接收的原始PDF文档的了解。例如，如果您知道所有本机PDF都将始终由文本组成，那么您可以简单地从文档中提取文本，如果发现有任何考虑，则将其视为本机，否则将其视为已扫描。

如果您知道所有“扫描的PDF”将始终由一定大小和一定压缩率的图像组成，则可以检查文档中的那些属性并对其进行相应的分类。

如果您根本不了解源输入，情况将变得更加复杂。您也可以查看元数据之类的内容，例如查找标识一个与另一个相对应的关键字。

最终，如果您对输入类型有一些限制，可以期望分类非常简单。

一个很好的后续问题是为什么您需要以这种方式区分文档？如果我们对此有所了解，也许可以对这种方法发表评论。