文字和数字的OCR-使用Tesseract和Java

时间:2018-10-19 12:52:39

标签: java ocr tesseract

我对抽奖(表格)的OCR有一些一般性的问题,因为我想分析这些图像并提取数据。 我使用Java(但是如果您提出其他建议,这也不成问题),并且我尝试使用Javacpp库进行Tesseract的机会并不多。

使用的示例代码:

    BytePointer outText;

    TessBaseAPI api = new TessBaseAPI();
    // Initialize tesseract-ocr with English, without specifying tessdata path
    if (api.Init(null, "ita") != 0) {
        System.err.println("Could not initialize tesseract.");
        System.exit(1);
    }

    // Open input image with leptonica library
    PIX image = pixRead("image.jpg");
    api.SetImage(image);
    // Get OCR result
    outText = api.GetUTF8Text();
    System.out.println("OCR output:\n" + outText.getString());

从上传的图像中,我仅获得名称:

1) Quintavalle Gianluca - 4.NC
1) Quintavalle Gianluca - 4.NC
Barelli Paolo - 4NC :

我认为问题在于特定的布局,因为图像非常清晰,但是我需要找出事件的结果(60 61)。

我尝试了许多不同的平局,不同的Tesseract选项和pagesegmode,但无法获得所需的数据。

img1

我的最终目的是从抽奖中获得比赛名单:

- winner1- loser1- result1 
- winner2- loser2- result2
etc

像这样绘制: img2

非常感谢所有帮助,这是针对一个研究项目的。

0 个答案:

没有答案