我使用的是Tesseract版本3.0.2.0,以下是我的代码
string tessDataDir = @"D:\temp";
string ocrOutput= "";
using (var engine = new TesseractEngine(tessDataDir, "eng", EngineMode.Default))
{
engine.DefaultPageSegMode = PageSegMode.SingleChar;
using (var image = Pix.LoadFromFile(imagePath))
{
using (var page = engine.Process(image))
{
ocrOutput = page.GetText();
}
}
}
我收到很多不正确的字符,有时X被检测为“J”,有时也被称为“fi”等。
1)JPEG图像被检测为“L”,虽然它是“X”,有人可以告诉我为什么会这样吗?
2)我怎样才能在Tesseract中禁用字典? 感谢。