我正在运行文档的数字化过程。我们有很多扫描图像,其中水印以45度角放置在文档上。但是,它并没有被过度标记,而是位于文本下方。被数字化的文档很旧,所以墨水已经褪色。
现在,问题是当我通过tesseract ocr运行扫描的图像时,它无法识别出水印线上的所有内容以及水印之后的内容。
例如,这是我们正在使用的原始图像的一部分。
Tesseract OCR命令
tesseract scan.gif scan_text
Tesseract结果
ca
Tesseract OCR无法识别水印后的 常规和2016年12月 。我已经做过一些研究,并使用imagemagick进行了图像处理,但我想不出能改善文本输出的方法。