ML足够的功能?

时间:2015-07-21 21:58:18

标签: machine-learning accelerometer

我试图在加速计数据集上训练一个随机森林。我计算平均值,sd,轴之间的相关性,曲线下面积等特征。我是ML Noob。

我试图理解两件事:

1.如果我将数据集从一个人分成测试和训练并运行RF预测,则准确度很高(> 90%)。然而,如果我使用来自不同人的数据训练RF然后进行预测,则准确度低(<50%)。为什么?我该如何调试?不确定我做错了什么。

  1. 在上面的示例中,要获得90%的准确度,有多少功能足够&#34;?多少数据&#34;足够&#34;?
  2. 我可以提供更多细节。数据集来自10人,标记数据的大文件。我将自己局限于上述功能以避免大量计算。

1 个答案:

答案 0 :(得分:3)

  1. 最有可能是你的分类器过度拟合,当你只对一个人进行训练时它不能很好地概括,它可能只是简单地记住&#34;具有标签而不是捕获一般分布规则的数据集:每个特征如何与其他/它们如何影响结果/等相关联。也许您需要更多数据或更多功能。

  2. 这不是一个简单的问题,它是泛化问题,对此有很多理论研究,例如:Vapnik–Chervonenkis theory Akaike_information_criterion。即使了解这些理论,你也无法准确回答这个问题。大多数此类理论的主要原则 - 您拥有的数据越多,您尝试拟合的模型变化越小,培训准确性与您需要的测试之间的差异越小 - 这种理论将使您的模型更高。例如,如果您不想最小化测试和训练集的准确性之间的差异(以确保测试数据的准确性不会崩溃) - 您需要增加数据量,提供更有意义的功能(关于您的模型) ),或使用较少的变化模型进行拟合。如果您对有关理论方面的更详细解释感兴趣,可以从此CaltechX - CS1156x Learning from data开始观看caltech的讲座。