提高特定任务的tesseract性能

时间:2014-01-03 07:05:42

标签: c++ performance opencv ocr tesseract

我已经阅读了this问题的答案。

我有一系列图像,其中包含3到10个字符之间的单个单词。它们是在计算机上创建的图像,因此图像的质量是一致的,图像上没有任何噪声。字体非常大(高度约为30像素)。这应该已经足够容易让tesseract准确读取,但是我可以使用哪些技术来提高速度,即使它只是几毫秒的改进?

字符集仅由大写字母组成。由于这种情况下的OCR任务非常具体,如果我使用这种特定字体和字体大小训练tesseract引擎还是有点过分会有帮助吗?

编辑包含样本

除了tesseract之外,还有其他可以与C / C ++一起使用的解决方案,可以提供更好的性能吗?使用OpenCV可以更快地完成吗?与Linux的兼容性是首选。

样品

enter image description here

enter image description here

enter image description here

enter image description here

enter image description here

1 个答案:

答案 0 :(得分:1)

如果所有字母都有相同的尺寸和&风格,你可以尝试一些非常简单的东西,比如运行blob检测,然后是单个字母的模板匹配。我不确定它与tesseract相比如何,但这是一个非常简单的实验。 (另外,降低分辨率会加快速度......) 您还可以查看此问题:Simple Digit Recognition OCR in OpenCV-Python,它可能是相关的