Question

我正在尝试使用魔杖从pdf中读取扫描图像，并使用 PIL 进行显示。但是我收到了一些错误。 pdf文件的第一页工作正常，但第二页显示此错误。

代码

from wand.image import Image
from wand.display import display
from PIL import Image as PI
import pyocr
import pyocr.builders
import io
import numpy as np
import cStringIO
tool = pyocr.get_available_tools()[0]
lang = tool.get_available_languages()[1]
req_image = []
final_text = []
image_pdf = Image(filename="DEEP_PLAST_20.700.pdf", resolution=200)
image_jpeg = image_pdf.convert('jpeg')
img_page = Image(image=image_jpeg.sequence[1])
img_buffer = np.asarray(bytearray(img_page.make_blob()), dtype=np.uint8)
print(img_buffer)
# im = PI.fromarray(img_buffer)
im = PI.open(cStringIO.StringIO(img_buffer))

我收到此错误。

Traceback (most recent call last):
  File "ocr.py", line 43, in <module>
    im = PI.open(cStringIO.StringIO(img_buffer))
  File "/home/sahil/anaconda2/lib/python2.7/site-packages/PIL/Image.py", line 2452, in open
    % (filename if filename else fp))
IOError: cannot identify image file <cStringIO.StringI object at 0x7fc4a8f168b0>

我不知道为什么代码在pdf的第二页上失败，而它适用于第一页。

任何帮助将不胜感激！

IOError：从pdf文件加载图像时无法识别图像文件

0 个答案: