如何使用pdfimages从简历中仅提取证件照片

时间:2018-09-11 08:36:38

标签: python image pdf extract pypdf

嗨,我尝试使用pdfimages从我的pdf简历文件中提取ID图像。但是,对于某些文件,它们还返回完全不相关的图标,表格行,边框图像。 无论如何,我可以将其限制为仅提取人物照片吗?我在想是否可以在输出中定义一定的尺寸限制?

1 个答案:

答案 0 :(得分:0)

您需要一种区分PDF中找到的图像的方法,以便提取感兴趣的图像。

我相信您可以考虑:

  1. 图像特征,例如宽度,高度,每个组件的位数,ColorSpace
  2. 有关图像的元数据信息(例如感兴趣的XMP标签)
  3. 照片中人的面部识别或ID本身结构的形式识别。
  4. 提取所有图像,然后使用一些图像处理代码来分析图像以识别感兴趣的图像。

我认为2)如果PDF的作者将带有照片ID的信息包括在内,则可能是最可靠的方法。 3)可能难以实施,并且无法始终如一地获得可靠的结果。 1)仅在为您的PDF文档标识出此类照片ID的可靠方法时才有效。

然后,您可以使用提取工具(如果它允许您这样做)来注销该信息。否则,您将需要使用PDF库编写自己的提取工具。