使用Tesseract识别彩色文本(Tess4J)

时间:2013-09-14 16:06:41

标签: java ocr bufferedimage tesseract

我正在使用Java和Tess4J进行文本识别。我识别黑色和红色图像(单独),两个都是白色背景,非常清晰。对于黑色的,它可以很好地工作,但是对于红色的那些,tesseract就是疯了。我尝试添加变量(“editor_image_text_color”,“RED”),但它根本没有帮助。 现在,我为红色做的是扫描整个图像并将每个红色像素设置为黑色,我觉得效率非常低,因为我需要对每个像素进行一些计算,因为图片有不同的红色强度我必须保存。 非常感谢!

例如: http://imageshack.us/photo/my-images/593/3eu9.png/总是给我一个9,但是 http://imageshack.us/photo/my-images/818/efxf.png/没有,就像它在预处理中丢失数字一样,因为黑色的工作非常好,但是红色的并不比随机数好。

2 个答案:

答案 0 :(得分:1)

尝试使用ImageHelper.convertImageToGrayscale(BufferedImage image)方法将彩色图像转换为灰度。

答案 1 :(得分:1)

感谢nguyenq的答案,我尝试了这个功能并且效果不好,但在检查出ImageHelper类之后,我使用了这个方法:

ImageHelper.convertImageToBinary(BufferedImage image)

并且效果很好,谢谢!