推荐OCR软件以应对这种识别情况

时间:2019-06-28 10:41:00

标签: computer-vision ocr tesseract

我必须识别这样的图片中的文本:

Image to recognise

我已经尝试过Tesseract,但是我对结果并不满意。

您能推荐我一些比“文档上的文本识别”更准确的软件吗?

预先感谢

2 个答案:

答案 0 :(得分:1)

不要指望Tesseract开箱即用。在将此图像放入Tesseract之前,需要做一些工作。

我会进行以下预处理:

  1. 对图像进行模糊处理以消除一些数字噪声
  2. 具有合适参数的自适应阈值
  3. 正确的图像 提供白色背景和黑色文字的颜色
    • 这应该很容易操作,只是在必要时将颜色反转
  4. 使用正确的语言文件运行Tesseract(我猜是意大利语)

这些预处理步骤确实很容易手动编程,但是当然有很多具有此功能的库。

首先请看:Preprocessing image for Tesseract OCR with OpenCV

答案 1 :(得分:0)

我不知道没有任何现成的软件可以在没有大量其他配置的情况下对特定图像进行文本提取,但是您可以改善Tesseract的结果

您可以尝试处理图像,以便Tesseract更容易识别它,在Tesseract完成自动调整后,使用tessedit_write_images true查看图像

这可能不是最好的,所以您可以使用许多可用的库/程序自己进行调整,您的目标应该是将其转换为黑白文本图像,并尽可能减少噪音

为此,请阅读:ImproveQuality

您还可以尝试针对您的特定数据训练Tesseract,但这将需要更多的工作,并且需要大量的训练数据,请阅读:TrainingTesseract 4.0