我尝试实现用鼠标绘制的汉字识别。我有每个汉字我打算只识别一个样本文件,提供所有笔画的相应笔划的开始和结束位置(对于固定的图像分辨率)。
我想知道如何将这些笔划信息用于汉字识别。我正在考虑使用笔画开始和终点之间的斜率并使用它们作为机器学习的特征,但每个汉字只有一个样本我会有~2000个类(每个汉字一个)和数据稀疏性问题(一组仅限每个汉字的笔划信息)。 是否可以在这样的稀疏数据集上使用ML?
答案 0 :(得分:0)
您的模型可能会受到数据集稀疏性的影响,但仍应该将某些机器学习算法应用于此模型,尤其是参数数量较少的简单算法。 (简而言之,试一试,看看)。
然而,你所描述的情况在我看来并不像乍一看那么糟糕。根据一组有序识别的笔画确定哪个汉字(我猜)是相当简单的。困难在于确定开始的笔画。
因此,真正需要数据的机器学习任务是笔划识别。然而,该模型每个类别具有多于一个样本,因为每个笔划可能出现在多个汉字中。
答案 1 :(得分:0)
首先,你可能从http://demos.shogun-toolbox.org/application/ocr/获得灵感(源代码在幕府将军的发行版中)。
然后将每个班级的单个汉字作为训练样例:当Kanjis非常相似时,这将不会很好。但是,你可以做的是生成通过稍微扭曲你的汉字产生的虚拟例子,即剪切,旋转,缩放等。这是Yann和许多其他人对MNIST(http://yann.lecun.com/exdb/mnist/)所做的。