image-processing - 需要有关培训Tesseract OCR的建议（带有转换/压缩工件的文本）

我需要对经过数字到模拟（隔行扫描视频）到数字转换的图像进行OCR，然后对jpeg进行压缩（导致压缩失真）。我无法找到所使用的确切字体，但我们将会看到无衬线的混合 - 例如，Arial，Calibri和Tiresias可能作为训练集很好用。没有办法解决jpeg压缩问题。这些是标准def分辨率（720x480去隔行扫描）的纯文本，黑底白字图像。

示例位于此处，调整为1000％： resized image capture

我找到了一个适用于Tesseract的预处理管道：

调整为400-600％
模糊
阈值（二值化）
侵蚀（使笔划宽度变薄）

一个问题是像't'和'f'这样的字母在十字架上最终呈菱形。尽管如此，这个过程运作良好，但并不完美。所以我想训练tesseract。我的问题：

我应该如何创建训练集？

我是否应该尝试通过添加少量噪声来模拟模拟到数字到模拟，然后使用jpeg进行压缩？我应该在训练集上进行预处理，类似于我上面列出的内容吗？如果我使用嘈杂的jpeg压缩图像训练以匹配我捕获的图像，是否最好跳过对捕获图像的预处理？

此外，任何有关摆脱转换/压缩工件而不牺牲文本的提示都将受到赞赏。

需要有关培训Tesseract OCR的建议（带有转换/压缩工件的文本）

0 个答案: