我需要对经过数字到模拟(隔行扫描视频)到数字转换的图像进行OCR,然后对jpeg进行压缩(导致压缩失真)。我无法找到所使用的确切字体,但我们将会看到无衬线的混合 - 例如,Arial,Calibri和Tiresias可能作为训练集很好用。没有办法解决jpeg压缩问题。这些是标准def分辨率(720x480去隔行扫描)的纯文本,黑底白字图像。
示例位于此处,调整为1000%:
我找到了一个适用于Tesseract的预处理管道:
一个问题是像't'和'f'这样的字母在十字架上最终呈菱形。尽管如此,这个过程运作良好,但并不完美。所以我想训练tesseract。我的问题:
我应该如何创建训练集?
我是否应该尝试通过添加少量噪声来模拟模拟到数字到模拟,然后使用jpeg进行压缩?我应该在训练集上进行预处理,类似于我上面列出的内容吗?如果我使用嘈杂的jpeg压缩图像训练以匹配我捕获的图像,是否最好跳过对捕获图像的预处理?
此外,任何有关摆脱转换/压缩工件而不牺牲文本的提示都将受到赞赏。