我的图像中包含所有数字(PFA图像)enter image description here,所有数字都不在输出文本中。我在运行以下代码后收到的文字是:
75491024385252003967
。我已从以下网址下载了我的培训数据: https://github.com/tesseract-ocr/langdata
任何人都可以指导我在这里做错了什么吗?
enter code here
string file = @"C:\Images\image.jpg";
char[] textArray = null;
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(file))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
text = Regex.Replace(text, @"\t|\n|\r|\s", "");
text = text.Trim(' ');
textArray = text.ToCharArray();
}
}
}
答案 0 :(得分:1)
如果您仍然没有找到解决方案,则可以尝试使用我们工作的LEAD Technologies许可的Leadtools OCR。我可以在.NET OCR演示中使用该图像,并在单个字符串中获得所有数字。我根本不需要使用培训数据。提取的文本包括字符之间的空格,但是您可以使用相同的Regex命令来解决该问题。这是生成的pdf的屏幕截图:
结果导出到PDF