我是Tess4j的初学者,当有几个大字体的单词,却有很多小字体的单词(请看照片时,会出现问题),请从png图像中提取文本。会更清楚:))。
例如,使用该图像,OCR的结果是:
第0行:lodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
第1行:Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd
在此示例中,当更多文本具有更大的字体时,OCR的结果为:
第0行:Te e e e e e e st
第1行:Iodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
第2行:Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd
这是我的代码:
Tesseract tesseract = new Tesseract();
String inputPath="C:\\Users\\laogor\\Desktop\\souligne10.png";
tesseract.setDatapath(".\\tessdata");
try {
String stringOCR = tesseract.doOCR(new File(inputPath));
String[] lines= stringOCR.split("\\n");
int i =0;
for (String string : lines) {
System.out.println("line "+i+" : "+string);
i++;
}
} catch (TesseractException e) {
e.printStackTrace();
}
我尝试使用getSegmentedRegions方法,但从未检测到较大字体的单词。
我以前在Python中使用Tesseract,而且效果很好。