我正在尝试使用反向传播神经网络执行留一法交叉验证以建模特定问题。我的训练数据有8个特征,有20个实例。我正在努力让NN学习构建预测模型的功能。现在,问题是预测中的错误率非常高。我的猜测是,与正在考虑的功能数量相比,培训中的实例数量较少。这个结论是否正确。实例比率是否有任何最佳特征?
答案 0 :(得分:9)
(由于数据集通常被描述为,因此本主题在ML文献中经常被称为可接受的 size 或数据集的形状。 mxn 矩阵,其中m是行数(数据点),n是列数(要素);显然m>> n是首选。)
在某种情况下,我不了解可接受范围的观察特征的一般规则;可能有几个原因:
这样的比率很大程度上取决于数据的质量 (信噪比);以及
要素数量只是模型复杂性的一个要素(例如,要素之间的互动);模型复杂度是数据实例(数据点)数量的最强决定因素。
所以有两个方法解决这个问题 - 由于它们相反,两者都可以应用于同一个模型:
减少功能的数量;或
使用统计技术来利用您拥有的数据
以上两条路径中的每条路径都有一条建议:
消除“非重要”功能 - 即那些对响应变量的可变性没有贡献的功能。主成分分析(PCA)是快速可靠的方法,尽管有许多其他技术通常归入“降维”标题。
使用 引导程序 而不是交叉验证。方法上的差异似乎很小,但是对于多层感知器(神经网络)来说,减少预测误差的(通常是实质性的)改进已被充分记录(参见例如,Efron,B。和Tibshirani,RJ,引导方法:改进关于交叉验证, J。of the American Statistical Association ,92,548-560。,1997)。如果您不熟悉用于拆分训练和测试数据的Bootstrap方法,则通用技术类似于交叉验证,除了不是采用整个数据集的子集,而是采用子样本。 Elements 的第7.11节是对Bootstrap方法的一个很好的介绍。
我发现的这个一般主题的最佳单一来源是第7章模型评估和选择来自优秀论文 统计学习要素 由Hastie,Tibshirani和Friedman。本书可从本书homepage免费下载。