Question

我的图像中包含所有数字（PFA图像）enter image description here，所有数字都不在输出文本中。我在运行以下代码后收到的文字是：

75491024385252003967

。我已从以下网址下载了我的培训数据： https://github.com/tesseract-ocr/langdata

任何人都可以指导我在这里做错了什么吗？

enter code here


       string file = @"C:\Images\image.jpg";
        char[] textArray = null;
        using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
        {

            using (var img = Pix.LoadFromFile(file))
            {

                using (var page = engine.Process(img))
                {
                    var text = page.GetText();
                    text = Regex.Replace(text, @"\t|\n|\r|\s", "");
                    text = text.Trim(' ');
                    textArray = text.ToCharArray();

                }

            }
        }

Answer 1

如果您仍然没有找到解决方案，则可以尝试使用我们工作的LEAD Technologies许可的Leadtools OCR。我可以在.NET OCR演示中使用该图像，并在单个字符串中获得所有数字。我根本不需要使用培训数据。提取的文本包括字符之间的空格，但是您可以使用相同的Regex命令来解决该问题。这是生成的pdf的屏幕截图：

结果导出到PDF

Results exported to PDF

Tesseract OCR无法正常工作，无法从图像中获取完整的文本。 C＃

1 个答案: