需要有关培训Tesseract OCR的建议(带有转换/压缩工件的文本)

时间:2013-10-30 19:32:14

标签: image-processing computer-vision ocr tesseract

我需要对经过数字到模拟(隔行扫描视频)到数字转换的图像进行OCR,然后对jpeg进行压缩(导致压缩失真)。我无法找到所使用的确切字体,但我们将会看到无衬线的混合 - 例如,Arial,Calibri和Tiresias可能作为训练集很好用。没有办法解决jpeg压缩问题。这些是标准def分辨率(720x480去隔行扫描)的纯文本,黑底白字图像。

示例位于此处,调整为1000%:resized image capture

我找到了一个适用于Tesseract的预处理管道:

  1. 调整为400-600%
  2. 模糊
  3. 阈值(二值化)
  4. 侵蚀(使笔划宽度变薄)
  5. 一个问题是像't'和'f'这样的字母在十字架上最终呈菱形。尽管如此,这个过程运作良好,但并不完美。所以我想训练tesseract。我的问题:

    我应该如何创建训练集?

    我是否应该尝试通过添加少量噪声来模拟模拟到数字到模拟,然后使用jpeg进行压缩?我应该在训练集上进行预处理,类似于我上面列出的内容吗?如果我使用嘈杂的jpeg压缩图像训练以匹配我捕获的图像,是否最好跳过对捕获图像的预处理?

    此外,任何有关摆脱转换/压缩工件而不牺牲文本的提示都将受到赞赏。

0 个答案:

没有答案