在许多应用程序中,创建大型训练数据集的成本非常高,如果不是完全不可能的话。那么可以采取哪些步骤来限制精确度所需的尺寸?
答案 0 :(得分:3)
嗯,有一个专门用于解决这个问题的机器学习分支(标签数据集成本很高):semi-supervised learning
老实说,从我的经验来看,计算是非常长的,与完全标记的数据集相比,结果很苍白......但是更好地训练大型未标记的数据集而不是没有任何东西!
编辑:嗯,我首先将这个问题理解为“标记数据集很昂贵”,而不是“数据集的大小无论如何都会很小”
嗯,除其他外,我会:
使用leave one out cross validation调整参数。计算最多,但最好的一个。
选择收敛速度相当快的算法。 (你需要一个比较表,我现在没有)
需要非常好的泛化属性。在这种情况下,弱分类器的线性组合非常好。 kNN(k个最近邻居)非常糟糕。
偏向“泛化”参数。大多数算法都包括泛化(规律性)和质量之间的折衷(训练集是否被分类器很好地分类?)。如果您的数据集很小,您应该将算法偏向泛化(在使用交叉验证调整参数之后)