似乎这可能是ocr的常见问题。有没有办法告诉tesseract我的1号实际上是1?
希望在此过程中不将我的7改为1。
注意:这些是扫描文档,我不知道使用了什么字体。
答案 0 :(得分:2)
如果“tesseract”可以训练,请尝试手动训练它。它应该解决问题。
还有另一种可能的解决方案。在“tesseracting”之后制作一个小的valdiation模块。对于所有1和7,使用基于强度的方法仔细检查它们。例如,尝试在其上找到角点(特征点)并使用1和7模板应用KLT,并查看哪一个获得了更积极的跟踪结果。这种方法很实用,但是因为你只需要在2个模板上进行尝试,所以我认为这不会是一个很大的性能下降。
如果两种解决方案都不可行,请尝试使用后处理解决它。例如,如果它是学生年龄,它不会是78,它是18,依此类推。然而,这种方法非常糟糕,根本不是解决方案。但是当没有其他解决方案可能时,你必须做类似的事情。