用于OCR

时间:2017-03-14 10:38:10

标签: python-3.x ocr

我正在为python中的OCR预处理图像。我将pdf转换为二进制图像。我得到的输出是这样的

Binary image

我希望ouput是这样的

desired output

知道如何解决这个问题吗?

1 个答案:

答案 0 :(得分:-3)

您必须使用Tesseract库从给定图像中提取文本。

我正在使用窗口系统,因此我从位置https://sourceforge.net/projects/tesseract-ocr-alt/files/下载了它。

假设您已将其安装在“E:\ w \ Tesseract-OCR”

位置

然后将图像放在同一位置。让我们来调用你的形象question.png 现在转到命令提示符并发出命令,

E:\ w \ Tesseract-OCR> tesseract.exe question.png answer.txt

如果answer.txt是Tesseract将创建的文本文件,您可以提供任何其他名称而不是answer.txt和question.txt是您的文件。

成功执行命令后,检查answer.txt中的输出。

如果您的图像我得到了以下输出。

投资类型:客户拥有

系统信息

火III 视频I]

所以在这种情况下,它只能正确识别文本。