我是OCR的初学者,试图使用Wand Image读取包含图像的pdf文件。
当页面数少于约50时,代码可以正常工作,但是随着页面数的增加,我的内存不足了。我有16 GB RAM
PATH = 'samplepdf.pdf'
JPEG = '.jpeg'
def read_pdf(number_of_page, path):
index = number_of_page
with WImage(filename=path, resolution=300) as img:
img.alpha_channel = 'remove'
img.background_color = Color("white")
img.format = 'jpeg'
path = path + JPEG
img.save(filename=path)
降低分辨率参数时,可以使它使用更少的内存。但是,由于OCR在低分辨率下的性能非常差,因此我必须在300下使用它。