我正在训练 CNN-RNN-CTC 网络来预测图像中的单词。准确度(编辑距离-0)约为75-80%。
我从一开始遇到的一个问题是在图像的开始或结束时预测不需要的字符代替无标签(CTC中提到的空白标签)。
例如,包含单词“ Hello ”的图片可能被预测为“ IHello ”或“l Hello ”或“ Helloi ”。每个时期的错误都有所不同(每个时代可能会引入一个不同的角色 - 一个是“ _ ”,另一个是“我”。因此我被迫选择一个模型最小错误插入率。
任何人都可以帮助我找到出错的地方吗?
我使用的实现是:https://github.com/keras-team/keras/blob/master/examples/image_ocr.py
链接到以下图片