我有OCR文档文本和原始文档文本。以下是一个示例
NUMBER / STREET APT / UNIT(原始文本)
NUS。 IBER / STREET 202我的地址APTI单元测试(OCR文本)
现在我要更正文本中的标签(NUS。IBER)-> NUMBER和(APTI)->(APT /)
使用原始模板文本自动更正标签的方法是什么?
我正在研究定制的解决方案,在其中检查原始文本中OCR文本中的匹配标签,例如,第一个匹配项是“ /”,因此我正在检查前一个单词的组合是否具有与原始单词近似的长度,然后将字符位置与原始单词的概率匹配,然后在此处将原始单词替换为(NUS。IBER)的单词将替换为(NUMBER)。但是我仍然面临着大文本的问题,看起来我做错了什么。请提出建议。