Tesseract OCR - 手写字体

时间:2012-01-04 22:36:59

标签: ocr tesseract handwriting

我正在尝试使用Tesseract-OCR来检测包含纯文本的图片文本,但这些文字有一个名为 Journal 的手写字体。

示例:

enter image description here

结果不是最好的:

  

最大值!尺寸`W(35)

有没有可能改善结果,或者更确切地说得到确切的结果?

2 个答案:

答案 0 :(得分:3)

我很惊讶Tesseract做得很好。通过一些训练,你应该能够训练小写'l'被正确识别。

你遇到的主要问题是大T字符的顶部。水平线延伸到2个(可能是3个)其他字符单元格,这会导致任何OCR引擎在尝试对字符进行分段以进行识别时出现问题。在这种情况下,培训可能会有所帮助。

下一个问题是。和:它们非常轻/薄,并且可能在OCR开始之前通过图像预处理被移除。

总体而言,使用Tesseract改善结果的唯一机会是调查培训。以下是一些可能有用的链接。

Alternative to Tesseract OCR Training?
Tesseract OCR Library learning font
Tesseract confuses two numbers

答案 1 :(得分:0)

就像安德鲁·卡什所提到的那样,由于它与许多下一个字符相交,因此很难为该T字母执行OCR。

为了改善结果,您可能需要尝试更准确的SDK。看看ABBYY Cloud OCR SDK,这是ABBYY最近推出的基于云的OCR SDK。它处于测试阶段,所以现在它完全免费使用。我工作@ ABBYY,如有必要,可以为您提供有关我们产品的更多信息。我已将您附加的图像发送到我们的SDK并获得此回复:

Maximal size: lall (35)