Question

我对抽奖（表格）的OCR有一些一般性的问题，因为我想分析这些图像并提取数据。我使用Java（但是如果您提出其他建议，这也不成问题），并且我尝试使用Javacpp库进行Tesseract的机会并不多。

使用的示例代码：

    BytePointer outText;

    TessBaseAPI api = new TessBaseAPI();
    // Initialize tesseract-ocr with English, without specifying tessdata path
    if (api.Init(null, "ita") != 0) {
        System.err.println("Could not initialize tesseract.");
        System.exit(1);
    }

    // Open input image with leptonica library
    PIX image = pixRead("image.jpg");
    api.SetImage(image);
    // Get OCR result
    outText = api.GetUTF8Text();
    System.out.println("OCR output:\n" + outText.getString());

从上传的图像中，我仅获得名称：

1) Quintavalle Gianluca - 4.NC
1) Quintavalle Gianluca - 4.NC
Barelli Paolo - 4NC :

我认为问题在于特定的布局，因为图像非常清晰，但是我需要找出事件的结果（60 61）。

我尝试了许多不同的平局，不同的Tesseract选项和pagesegmode，但无法获得所需的数据。

我的最终目的是从抽奖中获得比赛名单：

- winner1- loser1- result1 
- winner2- loser2- result2
etc

像这样绘制：

非常感谢所有帮助，这是针对一个研究项目的。

文字和数字的OCR-使用Tesseract和Java

0 个答案: