为什么tesseract-ocr不能检测盒子里的文字?

时间:2016-10-17 10:35:21

标签: python ocr tesseract python-tesseract

考虑这个实验:

我有两张图片,一张是自由文字,另一张是文字,旁边有一个框(边框包围)

如果我在这两个图像上运行tesseract-ocr,则自由文本图像输出'Text',而框图像输出Nothing''

为什么?

作为修复,我可以使用一些图像处理裁剪边框,但我想知道是什么导致了这个问题。

free image Boxed image

到目前为止, 我使用以下逻辑裁剪图像的边框[我们应该提供外边框轮廓裁剪图像]然后我能够检测到文本。但是我不明白为什么tesseract没有检测到盒装文本。随意尝试附加图像。

`# Below code modified (x,y) and (height,width) `
`# in a way that new values choose a smaller box enclosed`
`# by the original box`

 y = y + int(0.025*h) 
 x = x + int(0.025*w)
 h = h - int(0.05*h)
 w = w - int(0.05*w)

0 个答案:

没有答案