可以通过魔术签名验证PDF文件扩展名:25 50 44 46
但是,我想检测PDF是否包含文本或图像(即PDF是否包含可以使用ctrl + f搜索的文本或是否包含扫描文档)
有办法做到这一点吗?
答案 0 :(得分:1)
从技术上讲,您可以解析PDF文档结构并查找包含文本的元素。我想这需要付出很大的努力才能实现。
因此,您可能希望使用预制的PDF包为您进行解析(PDFBox,BfoPDF或类似的东西)。不过,我认为需要付出一些努力来实施。
我所知道的最简单的方法是使用可以为您提取纯文本的包。 Apache TIKA可以做到这一点。只需将文档提供给它,看看你是否得到了回报。
在任何情况下,很难对包含图像和文本的PDF进行分类。