我对OCR很新,对识别单词的算法几乎一无所知。我对此很熟悉。
有人可以建议用于识别和分离连接形式的单个字符的典型方法(我的意思是所有字母都链接在一起的单词)?忘记手写,假设字母使用已知字体连接在一起,确定单词中每个字符的最佳方法是什么?当单独编写字符时没有问题,但是当它们连接在一起时,我们应该知道每个字符的开始和结束位置,以便进入下一步并将它们单独匹配到一个字母。 是否有任何已知的算法?
答案 0 :(得分:3)
此过程的标准术语是“字符分割” - 分割是用于将图像分成用于识别的分组区域的图像处理术语。 “阿拉伯字符分割”throws up a lot of hits in google scholar如果您想了解更多信息。
我建议您查看Tesseract - an open source OCR implementation,尤其是the documents。
the glossary中定义的功能对此有一点了解,但此处有大量信息。
基本上,Tesseract通过查看blob(而不是字母)然后将这些blob组合成单词来解决问题(来自How Tesseract Works)。这可以避免您描述的问题,同时创建新问题。
对于阿拉伯语(如你所指出),Tesseract不起作用。我对这个领域了解不多,但this paper似乎暗示Dynamic Time Warping (DTW)是一种有用的技巧。这会尝试拉伸单词以使它们与已知单词匹配,并再次在单词而不是字母空间中起作用。