应用错误收集

嗯，有一个专门用于解决这个问题的机器学习分支（标签数据集成本很高）：semi-supervised learning

老实说，从我的经验来看，计算是非常长的，与完全标记的数据集相比，结果很苍白......但是更好地训练大型未标记的数据集而不是没有任何东西！

编辑：嗯，我首先将这个问题理解为“标记数据集很昂贵”，而不是“数据集的大小无论如何都会很小”

嗯，除其他外，我会：

使用leave one out cross validation调整参数。计算最多，但最好的一个。
选择收敛速度相当快的算法。（你需要一个比较表，我现在没有）
需要非常好的泛化属性。在这种情况下，弱分类器的线性组合非常好。 kNN（k个最近邻居）非常糟糕。
偏向“泛化”参数。大多数算法都包括泛化（规律性）和质量之间的折衷（训练集是否被分类器很好地分类？）。如果您的数据集很小，您应该将算法偏向泛化（在使用交叉验证调整参数之后）