Google colaboratory中的Tesseract安装

时间:2018-08-05 17:00:40

标签: tesseract google-colaboratory

我已经使用命令在Google colab中安装了tesseract

!pip install tesseract

但是当我运行命令

text = pytesseract.image_to_string(Image.open('cropped_img.png'))

我收到以下错误:

  

TesseractNotFoundError:未安装tesseract或不在您的路径中

4 个答案:

答案 0 :(得分:0)

您需要安装pytesseract而不是tesseract

这是一个例子:

https://colab.research.google.com/drive/1zduW1Hxv7Z_pwMFGjVauhs1dTlvZByCy

答案 1 :(得分:0)

添加pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/pytesseract'

这应该可以解决TesseractNotFoundError。

答案 2 :(得分:0)

在使用pytesseract包装器之前,您必须先安装tesseract引擎。您可以使用以下方法在Google colab上安装引擎:

!sudo apt install tesseract-ocr

您可以在以下位置找到示例:

https://github.com/labdeeman7/document-ocr/blob/master/classification%20via%20NLP%20and%20information%20extraction.ipynb

答案 3 :(得分:0)

可能有许多原因,但这通常是因为您没有可用于tesseract的C库。即使需要pytesseract,也仅是解决方案的一半。

您基本上需要同时安装Linux的tesseract软件包和Python绑定。

这基本上是解决方案:

! apt install tesseract-ocr
! apt install libtesseract-dev

以上内容为pytesseract安装了必需的依赖项。这非常重要,尤其是!,如果没有! pip install Pillow ! pip install pytesseract ,则无法直接安装到基础操作系统。

剩余的过程相对简单:

import

这将安装Python绑定。

其余部分非常简单,您只需要做import pytesseract from PIL import ImageEnhance, ImageFilter, Image

[a-zA-Z]

那你就可以让魔术发生了。

希望这对某人有帮助。