我最近开始探索回归神经网络。到目前为止,我已经使用Andrej Karpathy的blog在tensorFlow上训练了角色级语言模型。它很棒。
然而,我找不到任何关于使用RNN进行字符串匹配或关键字定位的研究。对于我的一个项目,我需要对扫描文档进行OCR,然后解析转换后的文本以获取关键数据点。大多数字符串匹配技术都无法包含OCR转换错误,从而导致严重错误。
是否可以根据我收到的转换文本的变化来训练RNN并将其用于查找关键字。
答案 0 :(得分:0)
本文可能是您正在寻找的东西:
[1608.02214] Robsut Wrod Reocginiton via semi-Character Recurrent Neural Network
简介:
本文的作者演示了一种识别混杂单词的方法,例如Cmabrigde Uinervtisy(剑桥大学)。用正确的开始,结束字符和不包含位置信息的编码内部字符训练神经网络,神经网络可以学会识别和纠正它。
您可以轻松地修改网络结构,以适应您自己的需求,如您提到的OCR。