imagemagick - 使用水印改善Tesseract OCR扫描图像的OCR结果

我正在运行文档的数字化过程。我们有很多扫描图像，其中水印以45度角放置在文档上。但是，它并没有被过度标记，而是位于文本下方。被数字化的文档很旧，所以墨水已经褪色。

现在，问题是当我通过tesseract ocr运行扫描的图像时，它无法识别出水印线上的所有内容以及水印之后的内容。

例如，这是我们正在使用的原始图像的一部分。

Tesseract OCR命令

tesseract scan.gif scan_text

Tesseract结果

ca

Tesseract OCR无法识别水印后的 常规和2016年12月 。我已经做过一些研究，并使用imagemagick进行了图像处理，但我想不出能改善文本输出的方法。