我正在寻找一种程序化解决方案来查找包含至少一个图像的所有页面(例如,他们的页面编号)。我不需要像他们自己的图像,我只需要页码。首选shell脚本解决方案或python解决方案,但有助于完成此任务的所有内容都可以。
背景:我正在对PDF进行OCR,我需要知道运行OCR的哪些页面才有意义。
答案 0 :(得分:1)
一种解决方案是使用pdfimages
包中的poppler-utils
实用程序。它可以输出存储在pdf中的图像的一些信息:
$ pdfimages -list file.pdf
page num type width height color comp bpc enc interp object ID
---------------------------------------------------------------------
1 0 image 200 197 rgb 3 8 jpeg no 7 0
页码是一个一个(从1开始计算),identify
(来自ImageMagik
包)可以显示所有页码:
$ identify -format '%p ' file
0 1 2 3
从这两个命令可以看出,第2,3,4页不包含图像,而第1页则包含图像。