Tesseract OCR提供错误的输出文本

时间:2016-11-28 06:38:22

标签: python image ocr tesseract

我有这样的图像

SOME STUFF HERE

                     DEPARTMENT OF PATHOLOGY

Name        : MR. V. HUGO                   Age/Sex     : 31 Y(s)/Male

Bill Date   : 28-Apr-2016 08:48 AM          UMR No      : ODC61995

Sample Date : 28-Apr-2016 09:38 AM          Bill No     : BIL130579

Report Date : 28-Apr-2016 04:21 PM          Result No   : RES378704


AND SOME MORE STUFF HERE

上图是矩形,其长度大于宽度。我将上面的图像裁剪到我需要阅读的图像部分,它看起来像这样

Name        : MR. V. HUGO                   Age/Sex     : 31 Y(s)/Male

Bill Date   : 28-Apr-2016 08:48 AM          UMR No      : ODC61995

Sample Date : 28-Apr-2016 09:38 AM          Bill No     : BIL130579

Report Date : 28-Apr-2016 04:21 PM          Result No   : RES378704

在裁剪后的图像中,宽度大于长度。但我得到的输出是错位的

Name
Bill Date
Sample Date
Report Date

MR. V. HUGO
28-Apr-2016 08:48 AM
28-Apr-2016 09:38 AM
28-Apr-2016 04:21 PM

Age/Sex
UMR No
Bill No
Result No

31 Y(s)/Male
ODC61995
BIL130579
RES378704

任何人都可以解释为什么会这样吗?没有裁剪,输出正确对齐但错误更多。我的想法是仅在图像的相关部分上运行Tesseract OCR。无论使用和不使用Python包装器,我都得到相同的结果。

P.S。 - 当我将侵蚀/膨胀应用于图像时,我也会得到与上面类似的输出错位,但在将其传递给Tesseract之前没有裁剪。

1 个答案:

答案 0 :(得分:0)

问题是由Tesseract完成的自动页面分割造成的。将页面分段模式值保持为4或PSM_SINGLE_COLUMN。

tesseract example.jpg out -l eng -psm 4