Tesseract3.netwraper无法正常工作

时间:2014-09-09 23:03:15

标签: c# image ocr tesseract

你好我使用https://github.com/charlesw/tesseract dotnetwrapper for tesseract3它可以工作,但翻译非常糟糕,我的代码是:

            TesseractEngine ocr = new TesseractEngine(null, "eng", EngineMode.Default);
            Pix pix = PixConverter.ToPix(bitmap);
            Page page = ocr.Process(pix);
            string result = page.GetText();
            MessageBox.Show(result);

和;

图片img =(图片)位图;

Clipboard.SetImage(IMG);

上面的图像(它不是我知道的图像,但我没有10个代表发布图像所以考虑它的图像)被翻译为;

图片输入; =(图片)biI1Iip;

(lipbuard.SetIlIige {illg)5

我希望它翻译完全所以我的问题在哪里,当我在gttext程序中使用相同的图像时它会翻译完整,所以我的问题在哪里。感谢所有想要提供解决方案的人。

1 个答案:

答案 0 :(得分:0)

我认为在将图像传递给tesseract之前,您不会使用任何图像处理。

以下是一些可用于提高结果质量的提示:

  • 修复DPI(如果需要)300 DPI最小
  • 修正文字大小(例如12磅 应该没问题)
  • 尝试修复文本行(偏斜校正和去扭曲文本)
  • 尝试 修复图像的照明(例如,没有图像的暗部)
  • 二值化和去噪图像

来源:image processing to improve tesseract OCR accuracy