从图像文件中分类类型样本

时间:2010-02-15 09:59:26

标签: image machine-learning computer-vision classification

您建议使用哪种方法自动对图像中的类型进行分类?样本可能很大,白色背景上有黑色文字。

此处定义了类别,每个类别都有一些示例(Google图书链接):http://bit.ly/9Mnu7P这是VOX-ATypI分类系统的扩展版本。

我对此的初步想法是用每个类别的大量单个字符样本训练系统,但我想知道是否有更好的方法可以消除一次进行一个字母比较的需要。

1 个答案:

答案 0 :(得分:2)

首先,您需要提取要分类的功能。字体通常通过线的粗细,衬线的存在,字符部分的“圆形度”来区分。因此,可能的特征是:

  • 固定区域上黑色像素数的分数。
  • 尝试几次应用数学形态erosion(和/或使用不同的蒙版)并计算此分数
  • 计算角色的平均紧凑度:周长^ 2 /区域
  • 应用侵蚀后,计算角色的连接组件数
  • 计算伸长率和其他image moments,以及方向

我在这里看到两个选项:计算所有字符的平均特征,或者首先尝试对字母进行分类,然后根据某些特定字母对字体进行分类(因此,您可以为不同的字母训练不同的分类器)。在你的情况下,很难说哪一个更好。

至于具体的学习算法,Random Forest似乎是一个很好的起点。 OpenCV库中有一个实现。