Tesseract无法识别带有手写文本的图像,我该怎么办?

时间:2019-10-16 17:42:08

标签: neural-network artificial-intelligence conv-neural-network handwriting-recognition

正如我在previous question中所问的那样,我面临的问题是我有数百张手写便笺的图像。它们是由不同的人编写的,但是它们是按顺序排列的,因此您知道例如person1写下了img1.jpg-> img100.jpg。手写样式因人而异,但笔记的某些部分始终是固定的(也许可以帮助算法)。

我遵循一个用户的建议使用tesseract,但它无法识别任何文本。文本不是英语,但我确实使用了适当的语言数据文件。

我对ai的了解是有限的,但是通过搜索和查看一些论文,看来可以使用CNN来完成。有人可以指导我从这里开始做什么吗?我想继续进行该项目,但我也没有太多时间来学习神经网络。实施能够解决这一任务的挑战有多大?

1 个答案:

答案 0 :(得分:0)

我不会将tesseract用于手写识别。您可以训练tesseract来进行手写识别,但是开箱即用,它对于printet文本以及许多字体和语言非常有效。

以下是两个如何进行自我训练的链接:

我在Amazon Recognition上获得了更好的成绩:https://aws.amazon.com/en/recognition 我想要一个脱机的Java库,但尚未找到。 我的下一步将尝试ABBYY服务,因为它们也可以专注于单独的手写字符:https://abbyy.technology/en:features:ocr:icr