嗨,我尝试使用pdfimages从我的pdf简历文件中提取ID图像。但是,对于某些文件,它们还返回完全不相关的图标,表格行,边框图像。 无论如何,我可以将其限制为仅提取人物照片吗?我在想是否可以在输出中定义一定的尺寸限制?
答案 0 :(得分:0)
您需要一种区分PDF中找到的图像的方法,以便提取感兴趣的图像。
我相信您可以考虑:
我认为2)如果PDF的作者将带有照片ID的信息包括在内,则可能是最可靠的方法。 3)可能难以实施,并且无法始终如一地获得可靠的结果。 1)仅在为您的PDF文档标识出此类照片ID的可靠方法时才有效。
然后,您可以使用提取工具(如果它允许您这样做)来注销该信息。否则,您将需要使用PDF库编写自己的提取工具。