tesseract没有使用java读取具有背景图像的文本和数字

时间:2013-03-13 12:03:02

标签: java ocr tesseract

我尝试使用tess4j(1.1)读取图像用于tesseract但是无法读取具有背景图像的那些数字/字符,因此我在图像和图像上应用阈值处理变为黑白但问题仍然相同。

所以我想知道,

  

是否可以通过使用tess4j(tesserarct)来读取背景颜色或背景图像的字符/数字。   如果有可能,那么试着为它提供一些线索。

     

OR

     

是否可以通过在训练数据中进行一些字符识别更改来获得结果

对于这种情况,javacv是唯一可用的选项而不是tesseract吗?

我也在寻找神经网络的机会,但似乎需要更多时间。

有解决方法吗?

使用tess4j示例是

File imageFile = new File("myimage.jpg");

Tesseract instance = Tesseract.getInstance();

String result = instance.doOCR(imageFile);

System.out.println(result);

2 个答案:

答案 0 :(得分:1)

Tesseract不是图像处理的最佳方式。

还有其他更好的选择,如神经网络,模板匹配等。

在任何情况下,都需要清理图像背景,因此可以选择使用javacv进行图像背景清洁。

直到现在,tesseract还无法识别数字。所以我认为神经网络是图像文本阅读和使用的良好选择,我能够获得大约60%+精度的结果。

答案 1 :(得分:0)

尝试使用Jumio Netswipe SDK阅读信用卡http://jumio.com/products/netswipe/overview/