获取包含图像的PDF页面

时间:2013-02-20 10:03:15

标签: python bash pdf

我正在寻找一种程序化解决方案来查找包含至少一个图像的所有页面(例如,他们的页面编号)。我不需要像他们自己的图像,我只需要页码。首选shell脚本解决方案或python解决方案,但有助于完成此任务的所有内容都可以。

背景:我正在对PDF进行OCR,我需要知道运行OCR的哪些页面才有意义。

1 个答案:

答案 0 :(得分:1)

一种解决方案是使用pdfimages包中的poppler-utils实用程序。它可以输出存储在pdf中的图像的一些信息:

$ pdfimages -list file.pdf
page   num  type   width height color comp bpc  enc interp  object ID
---------------------------------------------------------------------
   1     0 image     200   197  rgb     3   8  jpeg   no         7  0

页码是一个一个(从1开始计算),identify(来自ImageMagik包)可以显示所有页码:

$ identify -format '%p ' file
0 1 2 3

从这两个命令可以看出,第2,3,4页不包含图像,而第1页则包含图像。