Tesseract OCR无法正常工作,无法从图像中获取完整的文本。 C#

时间:2016-06-28 13:36:23

标签: c# ocr tesseract text-extraction

我的图像中包含所有数字(PFA图像)enter image description here,所有数字都不在输出文本中。我在运行以下代码后收到的文字是:

  

75491024385252003967

。我已从以下网址下载了我的培训数据: https://github.com/tesseract-ocr/langdata

任何人都可以指导我在这里做错了什么吗?

enter code here


       string file = @"C:\Images\image.jpg";
        char[] textArray = null;
        using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
        {

            using (var img = Pix.LoadFromFile(file))
            {

                using (var page = engine.Process(img))
                {
                    var text = page.GetText();
                    text = Regex.Replace(text, @"\t|\n|\r|\s", "");
                    text = text.Trim(' ');
                    textArray = text.ToCharArray();

                }

            }
        }

1 个答案:

答案 0 :(得分:1)

如果您仍然没有找到解决方案,则可以尝试使用我们工作的LEAD Technologies许可的Leadtools OCR。我可以在.NET OCR演示中使用该图像,并在单个字符串中获得所有数字。我根本不需要使用培训数据。提取的文本包括字符之间的空格,但是您可以使用相同的Regex命令来解决该问题。这是生成的pdf的屏幕截图:

结果导出到PDF

Results exported to PDF