使用Java Tess4j的Tesseract OCR-未检测到较大字体的单词

时间:2018-08-29 10:35:31

标签: ocr tesseract tess4j

我是Tess4j的初学者,当有几个大字体的单词,却有很多小字体的单词(请看照片时,会出现问题),请从png图像中提取文本。会更清楚:))。

例如,使用该图像,OCR的结果是:
第0行:lodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
第1行:Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd
enter image description here

在此示例中,当更多文本具有更大的字体时,OCR的结果为:
第0行:Te e e e e e e st
第1行:Iodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
第2行:Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd
enter image description here

这是我的代码:

    Tesseract tesseract = new Tesseract();
    String inputPath="C:\\Users\\laogor\\Desktop\\souligne10.png";
    tesseract.setDatapath(".\\tessdata");      
    try {
        String stringOCR = tesseract.doOCR(new File(inputPath));
        String[] lines= stringOCR.split("\\n");
        int i =0;
        for (String string : lines) {
            System.out.println("line "+i+" : "+string);
            i++;
        }
    } catch (TesseractException e) {
        e.printStackTrace();
    }

我尝试使用getSegmentedRegions方法,但从未检测到较大字体的单词。

我以前在Python中使用Tesseract,而且效果很好。

0 个答案:

没有答案