在Linux上为.jpg运行tesseract OCR时出错

时间:2014-10-02 03:38:10

标签: amazon-ec2 ocr tesseract

我在this guide之后在我的Amazon EC2实例上成功安装了tesseract。它适用于TIFF图像,但当我尝试在JPG上运行时,我得到:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Error in pixReadStreamJpeg: function not present
Error in pixReadStream: jpeg: no pix returned
Error in pixRead: pix not read
Unsupported image type.

我还需要安装/做什么?

2 个答案:

答案 0 :(得分:4)

我也遇到了同样的问题。这是由于你的leptonica安装可能有一些问题。尝试重新安装leptonica:

$tar -xvf leptonica-xx.tar.gz
$cd leptonica folder
$./configure
$make
$sudo make install    

完成后,您可以通过以下方式检查所有lib是否已正确安装:

$tesseract -v

然后它将显示已安装的4个库:

tesseract 3.02.02
leptonica-1.71
libjpeg 6b : libpng 1.2.49 : libtiff 3.9.4 : zlib 1.2.3

干杯:)

答案 1 :(得分:1)

我遇到了同样的问题,我必须手动安装所有的图像库,然后重新安装leptonica

首先安装此

sudo apt-get install libjpeg-dev libpng-dev libtiff4-dev

然后重新安装leptonica

./configure && make && sudo make install