Question

我是Tess4j的初学者，当有几个大字体的单词，却有很多小字体的单词（请看照片时，会出现问题），请从png图像中提取文本。会更清楚:)）。

例如，使用该图像，OCR的结果是：
第0行：lodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
第1行：Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd

在此示例中，当更多文本具有更大的字体时，OCR的结果为：
第0行：Te e e e e e e st
第1行：Iodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
第2行：Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd

这是我的代码：

    Tesseract tesseract = new Tesseract();
    String inputPath="C:\\Users\\laogor\\Desktop\\souligne10.png";
    tesseract.setDatapath(".\\tessdata");      
    try {
        String stringOCR = tesseract.doOCR(new File(inputPath));
        String[] lines= stringOCR.split("\\n");
        int i =0;
        for (String string : lines) {
            System.out.println("line "+i+" : "+string);
            i++;
        }
    } catch (TesseractException e) {
        e.printStackTrace();
    }

我尝试使用getSegmentedRegions方法，但从未检测到较大字体的单词。

我以前在Python中使用Tesseract，而且效果很好。

使用Java Tess4j的Tesseract OCR-未检测到较大字体的单词

0 个答案: