如何检测不同类型的PDF

时间:2013-06-20 14:47:56

标签: java pdf

可以通过魔术签名验证PDF文件扩展名:25 50 44 46

但是,我想检测PDF是否包含文本或图像(即PDF是否包含可以使用ctrl + f搜索的文本或是否包含扫描文档)

有办法做到这一点吗?

1 个答案:

答案 0 :(得分:1)

从技术上讲,您可以解析PDF文档结构并查找包含文本的元素。我想这需要付出很大的努力才能实现。

因此,您可能希望使用预制的PDF包为您进行解析(PDFBox,BfoPDF或类似的东西)。不过,我认为需要付出一些努力来实施。

我所知道的最简单的方法是使用可以为您提取纯文本的包。 Apache TIKA可以做到这一点。只需将文档提供给它,看看你是否得到了回报。

在任何情况下,很难对包含图像和文本的PDF进行分类。