哪种预测建模技术最有帮助?

时间:2013-09-14 08:53:10

标签: neural-network regression linear-regression data-analysis random-forest

我有一个训练数据集,根据他们在过去几年(2005-2007)的表现,给出了各种板球运动员(2008年)的排名。

我将使用这些数据开发模型,然后将其应用于另一个数据集,以使用已经提供给我的数据(2009-2011)预测玩家的排名(2012)。

哪种预测建模最适合这种情况?使用不同形式的回归或神经网络的利弊是什么?

2 个答案:

答案 0 :(得分:2)

要使用的模型类型取决于不同的因素:

  • 数据量:如果数据非常少,最好选择简单的预测模型,如线性回归。如果使用功能过于强大的预测模型,则会遇到过度拟合模型的风险,因为它会对新数据产生不良影响。现在您可能会问,什么是小数据?这取决于输入维度的数量以及数据的基础分布。
  • 您对模特的体验。如果您对它们缺乏经验,那么神经网络可能非常棘手。有很多参数需要优化,比如网络层结构,迭代次数,学习率,动量项,仅举几例。对于这个"元优化"
  • ,线性预测更容易处理

如果您仍然不能选择其中一种方法,那么实用的方法是评估几种不同的预测方法。您可以获取已有目标值(2008数据)的一些数据,将其分为训练和测试数据(例如,将测试数据作为测试数据占10%),使用交叉验证进行训练和测试,并计算错误率将预测值与您已有的目标值进行比较。

一本伟大的书,也在网上,是C.毕晓普的模式识别和机器学习。它有一个关于预测模型的很好的介绍部分。

答案 1 :(得分:1)

  
      
  1. 哪种预测模型最适合这种情况? 2.什么是专业人士   和利用不同形式的回归或神经   网络?
  2.   
  1. “什么是最好的”取决于你拥有的资源。具有信息理论学习图的全贝叶斯网络(或k-依赖贝叶斯网络)是最终的“无假设”模型,并且通常表现非常好。复杂的神经网络也可以表现出色。这些模型的问题在于它们的计算成本非常高,因此采用近似方法的模型可能更合适。连接回归,神经网络和贝叶斯网络存在数学上的相似性。

  2. 回归实际上是神经网络的一种简单形式,对数据有一些额外的假设。可以构建神经网络以减少对数据的假设,但正如Thomas789所指出的那样,代价是难以理解(有时难以调试)。

  3. 根据经验,模型中的假设和近似值越多,对A的理解就越容易:理解和B:找到必要的计算能力,但可能以性能或“过度拟合”为代价(这是模型很适合训练数据,但不能推断一般情况。)

    免费在线图书:

    http://www.inference.phy.cam.ac.uk/mackay/itila/

    http://ciml.info/dl/v0_8/ciml-v0_8-all.pdf