c#-tesseract以数字形式获取空间识别

时间:2015-12-21 20:33:20

标签: c# tesseract

我是tesseract的新手,我正在制作一个我需要扫描数字矩阵的课程项目。我已经成功地从图像文件中读取数字,但我还没有找到如何识别数字之间的间距。例如,目前我的1 4 6 10得到14610。

图像:

enter image description here

我目前正在使用的代码:

Bitmap myBmp = new Bitmap(file);
var image = myBmp;
var ocr = new Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only 

ocr.Init(@"C:\Users\MuhammadShahroz\Documents\Visual Studio 2013\Projects\ConsoleApplication3\tessdata", "eng", false);
var results = ocr.DoOCR( image, Rectangle.Empty);

foreach (Word word in results)
{
    Console.WriteLine("{0} : {1}", word.Confidence, word.Text);
    mystring = String.Format("{0 } ",word.Text);
}

1 个答案:

答案 0 :(得分:4)

我认为您需要设置变量preserve_interword_spaces=1(请参阅doc