使用GIT代码,我们从图像中提取文本。但发现了一些挑战
In Progress
时,只会将 n Progress
写入文件。Assigned
,则仅提取为 ssigned
INC123456789
时,在文件中将其写为 INC1234 56789
Google
的地图,当写入文件时,它被转换为 GooglA
任何面临类似问题的人?并知道如何获得100%的文本提取?
答案 0 :(得分:0)
也许尝试编写自己的机器学习模型,或敢于编写自己的深度学习神经网络。
一个更简单的选择可能是尝试使用某种字典模型映射常见错误(最简单的例子是Levenshtein距离模型),其中:
bag of words
)ngram sentence correction
来纠正某些词组(例如。n Progress
到In Progress
)