tesseract-ocr甚至不读取简单图像中的文本

时间:2015-04-20 09:56:50

标签: php ocr tesseract

为了其他人在谷歌中找到这个,我会详细解释我的问题,尽管它应该是显而易见的。我使用tesseract-ocr希望从图像中删除文本。我努力解决的问题是,即使在最简单的图像中,tesseract-orc也找不到文本。请参阅下面的系统和版本信息:

[root@tower python2]# uname -a
Linux tower.youds.com 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
[root@tower python2]# tesseract -v
tesseract 3.02.02
leptonica-1.71
libjpeg 6b : libpng 1.2.52 : zlib 1.2.3

示例图像我尝试使用php ocr类,但该类或类不足以满足我的需要,而且显然是tesseract。

以下是我运行tesseract时会发生什么:

[root@tower phpocr]# tesseract W1.png output.file
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
[root@tower phpocr]#

这些是我使用的图片:

http://arbiter.rogues-alliance.com/includes/phpocr/W.png

http://arbiter.rogues-alliance.com/includes/phpocr/W1.png

已编辑:包含更多图片。

1 个答案:

答案 0 :(得分:2)

尝试添加pagesegmode选项,例如-psm 10(即 10 =将图像视为单个字符),这似乎太改进了单个字符的识别。列出tesseract --help的其他选项。

不幸的是,当我运行-psm 10 W.png 并且 W1.png 的示例文件被标识为w和{{1}时尽管较大的图像(例如this one)正确地标识为N。我怀疑它是你的样本的大小/字体导致这个。此外,这是纯粹的推测,tesseract可能会更好地在上下文中识别这个字符,即与使用相同字体和大小的其他字符一起。