我尝试过tesseract,但它仅适用于纯文本文档,有人可以建议我怎么做吗?
Dim pic = New Bitmap(OpenFileDialog1.FileName)
Dim ocr = New TesseractEngine("./dataset", "eng", EngineMode.TesseractAndCube)
Dim page = ocr.Process(pic)
TextBox1.Text = page.GetText
答案 0 :(得分:0)
看来您的答题纸结构良好。我将专注于为每个答案提取一个子图像,然后在该图像上以单字符模式运行Tesseract。
我不确定在使用的任何Tesseract包装器中如何获得单字符模式,但是通过命令行,它是参数:--psm 10
。
要提取每个图像,我将使用OpenCV(对于.NET,请尝试Emgu)。您可能需要先应用透视包,才能获得图像正方形。然后,您可以使用一个简单的滑动窗口来获取每个子图像。
我不确定在答案被删除的情况下如何执行。