我正致力于文本识别项目。 我使用TensorFlow构建了一个分类器来预测数字,但我想通过使用文本本地化和文本分割(分隔每个字符)来实现更复杂的文本识别算法,但我没有找到算法的那些部分的实现。
那么,你知道一些算法/实现/提示吗,我使用TensorFlow来定位文本并在自然场景图片中进行文本分割(实际上是在体育图片的记分板中对文本进行本地化和分割)?
非常感谢您的帮助。
答案 0 :(得分:1)
要对页面上的元素进行分组,例如文本和图像的段落,您可以使用一些聚类算法,和/或带有一些阈值的blob检测。
您可以使用Radon变换识别线条并检测扫描页面的歪斜。
我认为对于字符分离,你将不得不搞乱字体。一些多项式匹配/拟合或其他东西。 (现在这是一个非常疯狂的猜测,不要认真对待)。 但是类似的方法可以让你将角色排除在线外并同时识别它。
至于识别,一旦你有了一个角色,就会有一个很好的三角技巧,可以将角色的角度与存储在数据库中的角度进行比较。 手写也很棒。
我不是关于页面分割如何正常工作的专家,但似乎我正在成为一个人。刚刚开展一个包含它的项目。 所以给我一个月,我就能告诉你更多。 :d
无论如何,你应该去阅读Tesseract代码,看看惠普和谷歌是如何做到的。它应该给你很好的想法。
祝你好运!