如何在答题纸中提取书面号码(图片)

时间:2019-04-26 03:21:38

标签: c# vb.net

我尝试过tesseract,但它仅适用于纯文本文档,有人可以建议我怎么做吗?

enter image description here 这是我的vb.net代码

Dim pic = New Bitmap(OpenFileDialog1.FileName)
 Dim ocr = New TesseractEngine("./dataset", "eng", EngineMode.TesseractAndCube)
 Dim page = ocr.Process(pic)
 TextBox1.Text = page.GetText

1 个答案:

答案 0 :(得分:0)

看来您的答题纸结构良好。我将专注于为每个答案提取一个子图像,然后在该图像上以单字符模式运行Tesseract。 我不确定在使用的任何Tesseract包装器中如何获得单字符模式,但是通过命令行,它是参数:--psm 10

要提取每个图像,我将使用OpenCV(对于.NET,请尝试Emgu)。您可能需要先应用透视包,才能获得图像正方形。然后,您可以使用一个简单的滑动窗口来获取每个子图像。

我不确定在答案被删除的情况下如何执行。