应用错误收集

提高特定任务的tesseract性能

时间：2014-01-03 07:05:42

标签： c++ performance opencv ocr tesseract

我已经阅读了this问题的答案。

我有一系列图像，其中包含3到10个字符之间的单个单词。它们是在计算机上创建的图像，因此图像的质量是一致的，图像上没有任何噪声。字体非常大（高度约为30像素）。这应该已经足够容易让tesseract准确读取，但是我可以使用哪些技术来提高速度，即使它只是几毫秒的改进？

字符集仅由大写字母组成。由于这种情况下的OCR任务非常具体，如果我使用这种特定字体和字体大小训练tesseract引擎还是有点过分会有帮助吗？

编辑包含样本

除了tesseract之外，还有其他可以与C / C ++一起使用的解决方案，可以提供更好的性能吗？使用OpenCV可以更快地完成吗？与Linux的兼容性是首选。

样品

enter image description here

1 个答案:

答案 0 :(得分：1)

如果所有字母都有相同的尺寸和＆amp;风格，你可以尝试一些非常简单的东西，比如运行blob检测，然后是单个字母的模板匹配。我不确定它与tesseract相比如何，但这是一个非常简单的实验。（另外，降低分辨率会加快速度......）您还可以查看此问题：Simple Digit Recognition OCR in OpenCV-Python，它可能是相关的