.net Tesseract有时会错误地检测字符

时间:2018-03-29 05:02:10

标签: c# tesseract

我使用的是Tesseract版本3.0.2.0,以下是我的代码

string tessDataDir = @"D:\temp";
string ocrOutput= "";

using (var engine = new TesseractEngine(tessDataDir, "eng", EngineMode.Default))
    {
       engine.DefaultPageSegMode = PageSegMode.SingleChar;
       using (var image = Pix.LoadFromFile(imagePath))
         { 
           using (var page = engine.Process(image))
            {
             ocrOutput = page.GetText();
            }
         }
    }

我收到很多不正确的字符,有时X被检测为“J”,有时也被称为“fi”等。

1)JPEG图像被检测为“L”,虽然它是“X”,有人可以告诉我为什么会这样吗?

enter image description here

2)我怎样才能在Tesseract中禁用字典? 感谢。

0 个答案:

没有答案