我对抽奖(表格)的OCR有一些一般性的问题,因为我想分析这些图像并提取数据。 我使用Java(但是如果您提出其他建议,这也不成问题),并且我尝试使用Javacpp库进行Tesseract的机会并不多。
使用的示例代码:
BytePointer outText;
TessBaseAPI api = new TessBaseAPI();
// Initialize tesseract-ocr with English, without specifying tessdata path
if (api.Init(null, "ita") != 0) {
System.err.println("Could not initialize tesseract.");
System.exit(1);
}
// Open input image with leptonica library
PIX image = pixRead("image.jpg");
api.SetImage(image);
// Get OCR result
outText = api.GetUTF8Text();
System.out.println("OCR output:\n" + outText.getString());
从上传的图像中,我仅获得名称:
1) Quintavalle Gianluca - 4.NC
1) Quintavalle Gianluca - 4.NC
Barelli Paolo - 4NC :
我认为问题在于特定的布局,因为图像非常清晰,但是我需要找出事件的结果(60 61)。
我尝试了许多不同的平局,不同的Tesseract选项和pagesegmode,但无法获得所需的数据。
我的最终目的是从抽奖中获得比赛名单:
- winner1- loser1- result1
- winner2- loser2- result2
etc
非常感谢所有帮助,这是针对一个研究项目的。