Question

我目前正在使用pdf文件的Python 3.x图像提取器，似乎无法找到解决我在整个工作中遇到的问题的解决方案。我的意图是提取不带这些文件的公司徽标的pdf文件（车辆报告）的所有图像。到目前为止，我有一个使用fitz的有效代码，该代码可以找到图像并将其存储（我在互联网上找到了此代码）。不幸的是，它们以错误的顺序返回。为了给图片加上标题，必须按照在pdf中的显示顺序进行保存。

我已经尝试通过按升序使用xref-String（在pdf中定义一个字符串的字符串）中定义的对象名称来实现此目的。在该版本之前，我通过dict（我知道未排序，但通过对键进行排序将其计数器）用计数器注释了图片，但是大约有2-4张未分类的约30张图片。此外，对于我来说，这段代码似乎不是一个好的解决方案，因为我通过注释计数器来“伪造”图像编号。

我当前的版本（外部参照名称）：

import fitz
import sys
import re

checkXO = r"/Type(?= */XObject)"       # finds "/Type/XObject"   
checkIM = r"/Subtype(?= */Image)"      # finds "/Subtype/Image"
doc = fitz.open(fr"{pdfpath}")

lenXREF = doc._getXrefLength()         # number of objects 
pixmaps = {}
imgcount=0
count=0
imglist=[]
for i in range(1, lenXREF):            # scan through all objects
    text = doc._getXrefString(i)     # string defining the object

    isXObject = re.search(checkXO, text)    # tests for XObject
    isImage   = re.search(checkIM, text)    # tests for Image
    if not isXObject or not isImage:   # not an image object if not both True
        continue
    count+=1
    pix = fitz.Pixmap(doc, i)          # make pixmap from image
    if re.search(r'Name \WIm(\d+)',text) != None:
        imglist.append(re.search(r'Name \W(Im\d+)',text).group(1))
        pixmaps[re.search(r'Name \W(Im\d+)',text).group(1)]=pix
    if re.search(r'Name \W(Im\d+)',text) == None:
        imglist.append(count)
        pixmaps[count]=pix
imglist1=[]
for i in range(1,doc.pageCount):
    if len(doc.getPageImageList(i))>1:
        for entry in doc.getPageImageList(i):
            imglist1.append(entry[7])
        break
for entry in imglist1:    
    pixmaps[entry].writeImage(fr"{dirpath}\%s.jpg" % (imgcount),'jpg')        
    imgcount+=1

请随时提出一种全新的方法来完成此任务。预先感谢您的帮助。

Answer 1

回购维护者的答案

在较新的PyMuPDF版本（最佳使用v1.17.0）中，您可以在页面上获取图像的位置。当您谈论“正确的价格”：rect = page.getImageBbox(name)时，这似乎是您的意图，其中名称是您上方的entry[7]。

Answer 2

对图像列表使用 sorted()。如果您可以使用不同的版本，请参阅https://stackoverflow.com/a/68267356/7240889

以正确的顺序用pymupdf提取pdf图像

2 个答案: