如何从具有坐标的pdf图像文件中提取数据?

时间:2019-07-02 16:24:03

标签: python-3.x python-imaging-library wand

如何使用坐标从PDF图像文件中提取文本 python及其外部库。

from wand.image import Image as wi
from PIL import Image

pdf = wi (filename=("F:\cng-example-bill.pdf")
pdfImg = pdf.convert('jpg')
crop_img = pdfImg.crop((35, 20, 40, 35))
print(crop_imp)

试图将PDF文件转换为jpg文件的代码段, 从jpg尝试基于坐标提取数据。 程序应基于图像文件的坐标给出输出(数据)

1 个答案:

答案 0 :(得分:0)

pdf.convert('jpg')行仅克隆堆栈,并设置format属性。 pdfImg.crop成功返回True,并且不返回任何数据。您也许可以将代码段重写为...

from wand.image import Image as wi

pdf = wi(filename=("F:\cng-example-bill.pdf[0]")
pdf.crop(left=35, top=20, width=40, height=35)
crop_img = pdf.make_blob('jpg')

请注意,"F:\cng-example-bill.pdf[0]"仅解码PDF的第一页,并且裁剪区域是40x35+35+20区域。 crop_img是JPG文件数据,不是像素数据或pdf文本数据。