Tesseract OCR无法识别任何角色

时间:2017-04-02 19:31:58

标签: python opencv tesseract python-tesseract

我正在开发一个需要角色识别作为其中一部分的项目。我正在使用IAM的手写数据集,因此所有图像都或多或少地采用相同的条件。我正在使用数据集提供的单词图片并按照这些步骤进行操作

  • 二值化和阈值​​处理
  • 将单词划分为构成单词的字符
  • 调整提取的字符大小
  • 让tesseract找出英文字母是什么

我想要实现的是将人物文档的字符存储在按字母表分类的文件夹中,以后可能会形成一个模板。为此,我需要知道它是哪个角色 这就是我得到的结果 -
enter image description here

所有字符都已正确分段(大多数情况下)。这是一个问题问题,而不是一个python问题,但我正在使用python编写脚本并通过pytesseract包装器调用tesseract。
我正在使用OpenCV来操作图像。这些字母矩阵的图像作为输入发送到tesseract(由pytesseract处理)。我保证,输入不是问题。还有什么我需要做的才能让tesseract工作吗?

这些字符均未被识别。

1 个答案:

答案 0 :(得分:2)

Tesseract doesn't support handwritten text。您应该尝试使用ABBYY OCR或其他免费库,例如Lipi Toolkit