我基本上遵循一篇论文,“使用统计语言模型来提高基于HMM的草书手写识别系统的性能”。
这里作者从每个滑动窗口中提取了9个特征的向量。引用论文:
前三个特征是窗户的重量,它的中心 重力和窗户的二阶矩。
特征四和五定义了上部和下部的位置 在窗口中的轮廓,特征六和七给出方向 上下轮廓由轮廓的梯度表示 窗口位置,功能八给出了黑色到白色的数量 垂直方向的过渡,而特征九给出数字 上下轮廓之间的黑色像素。
我设法计算了论文所讨论的前三个特征,但我似乎无法理解4,5,6,7,8的特征。
我可以计算出图像的轮廓。假设,这是一个文本行的窗口(窗口长度为14像素,如纸张所示):
这是图像的提取轮廓:
那么这里的上下轮廓究竟是什么?从哪里可以考虑限制,如果它指的是顶部和底部像素,那么我可以提取那些没有轮廓提取?同样,这些轮廓的方向同样令人困惑。
我真的很感激这里的一些指导。
答案 0 :(得分:1)
我看了一下这篇论文,我很确定“上”和“下”应该被理解为“最高”和“最低”。这尤其有意义,因为作者特别关注他们在水平和垂直方向上标准化的数据的预处理。他们注意要有一种规模,写作角度的稳健性......
我猜功能4和5可以是轮廓的极值纵坐标,结合6和6的特征。 7这是渐变=方向,很好地了解轮廓的这些部分的形状。
特征9,最有用的是区分我猜的具有相似垂直形状的字母,例如“i”,“l”,“j”。
这是我的理解。希望这有帮助!