在机器学习中,您可以采取哪些措施来限制所需的训练样本数量?

时间:2011-08-10 13:56:40

标签: machine-learning

在许多应用程序中,创建大型训练数据集的成本非常高,如果不是完全不可能的话。那么可以采取哪些步骤来限制精确度所需的尺寸?

1 个答案:

答案 0 :(得分:3)

嗯,有一个专门用于解决这个问题的机器学习分支(标签数据集成本很高):semi-supervised learning

老实说,从我的经验来看,计算是非常长的,与完全标记的数据集相比,结果很苍白......但是更好地训练大型未标记的数据集而不是没有任何东西!


编辑:嗯,我首先将这个问题理解为“标记数据集很昂贵”,而不是“数据集的大小无论如何都会很小”

嗯,除其他外,我会:

  • 使用leave one out cross validation调整参数。计算最多,但最好的一个。

  • 选择收敛速度相当快的算法。 (你需要一个比较表,我现在没有)

  • 需要非常好的泛化属性。在这种情况下,弱分类器的线性组合非常好。 kNN(k个最近邻居)非常糟糕。

  • 偏向“泛化”参数。大多数算法都包括泛化(规律性)和质量之间的折衷(训练集是否被分类器很好地分类?)。如果您的数据集很小,您应该将算法偏向泛化(在使用交叉验证调整参数之后)