Tesseract-OCR(3.02)识别准确度和速度

时间:2016-07-02 05:49:16

标签: image tesseract

我有一组非常小的图像(w:70-100; h:12-20),如下图所示:

enter image description here

在那些图像中,只有群组成员的昵称。我想从简单的图像中读取文本,它们都有一个背景,只有昵称不同。那么,我对这张图片做了什么:

enter image description here

我使用下面的代码从第二张图片中获取文字:

tesseract::TessBaseAPI ocr;
ocr.Init(NULL, "eng");
PIX* pix = pixRead("D:\\image.png");
ocr.SetImage(pix);
std::string result = ocr.GetUTF8Text();

我有两个问题:

  1. ocr.GetUTF8Text();工作缓慢:650-750毫秒。图像很小,为什么它的工作时间长呢?
  2. 从上面的图像我得到的结果如:“iwillkillsm”,“iwillkillsel”等。这个图像很简单,我相信tesseract大师能够100%准确地识别它。

    我应该怎样处理图像/代码或者我应该阅读哪些内容(以及有关文本速度和质量识别的内容)以解决这些问题?

1 个答案:

答案 0 :(得分:3)

这可能听起来很奇怪,但是当我增加图像的尺寸时,我总是在使用tesseract时运气最好。图像会看起来更糟糕"对我而言,tesseract更快,准确度更高。

在你开始变得更差的结果之前,你可以制作多大的图片有一个限制但是:)我想我记得过去拍摄过600px。你不得不玩它。