应用错误收集

使用OCR分隔单词中连接字母的典型方法是什么

时间：2010-04-14 09:14:21

标签： algorithm ocr

我对OCR很新，对识别单词的算法几乎一无所知。我对此很熟悉。

有人可以建议用于识别和分离连接形式的单个字符的典型方法（我的意思是所有字母都链接在一起的单词）？忘记手写，假设字母使用已知字体连接在一起，确定单词中每个字符的最佳方法是什么？当单独编写字符时没有问题，但是当它们连接在一起时，我们应该知道每个字符的开始和结束位置，以便进入下一步并将它们单独匹配到一个字母。是否有任何已知的算法？

1 个答案:

答案 0 :(得分：3)

此过程的标准术语是“字符分割” - 分割是用于将图像分成用于识别的分组区域的图像处理术语。 “阿拉伯字符分割”throws up a lot of hits in google scholar如果您想了解更多信息。

我建议您查看Tesseract - an open source OCR implementation，尤其是the documents。

the glossary中定义的

功能对此有一点了解，但此处有大量信息。

基本上，Tesseract通过查看blob（而不是字母）然后将这些blob组合成单词来解决问题（来自How Tesseract Works）。这可以避免您描述的问题，同时创建新问题。

对于阿拉伯语（如你所指出），Tesseract不起作用。我对这个领域了解不多，但this paper似乎暗示Dynamic Time Warping (DTW)是一种有用的技巧。这会尝试拉伸单词以使它们与已知单词匹配，并再次在单词而不是字母空间中起作用。