使用水印改善Tesseract OCR扫描图像的OCR结果

时间:2019-07-05 10:18:51

标签: imagemagick ocr tesseract imagemagick-convert

我正在运行文档的数字化过程。我们有很多扫描图像,其中水印以45度角放置在文档上。但是,它并没有被过度标记,而是位于文本下方。被数字化的文档很旧,所以墨水已经褪色。

现在,问题是当我通过tesseract ocr运行扫描的图像时,它无法识别出水印线上的所有内容以及水印之后的内容。

例如,这是我们正在使用的原始图像的一部分。

Part of Scanned Page

Tesseract OCR命令

tesseract scan.gif scan_text

Tesseract结果

ca

Tesseract OCR无法识别水印后的 常规和2016年12月 。我已经做过一些研究,并使用imagemagick进行了图像处理,但我想不出能改善文本输出的方法。

0 个答案:

没有答案