应用错误收集

（由于数据集通常被描述为，因此本主题在ML文献中经常被称为可接受的 size 或数据集的形状。 mxn 矩阵，其中m是行数（数据点），n是列数（要素）;显然m>＆gt; n是首选。）

在某种情况下，我不了解可接受范围的观察特征的一般规则;可能有几个原因：

所以有两个方法解决这个问题 - 由于它们相反，两者都可以应用于同一个模型：

以上两条路径中的每条路径都有一条建议：

消除“非重要”功能 - 即那些对响应变量的可变性没有贡献的功能。主成分分析（PCA）是快速可靠的方法，尽管有许多其他技术通常归入“降维”标题。
使用 引导程序 而不是交叉验证。方法上的差异似乎很小，但是对于多层感知器（神经网络）来说，减少预测误差的（通常是实质性的）改进已被充分记录（参见例如，Efron，B。和Tibshirani，RJ，引导方法：改进关于交叉验证， J。of the American Statistical Association ，92,548-560。，1997）。如果您不熟悉用于拆分训练和测试数据的Bootstrap方法，则通用技术类似于交叉验证，除了不是采用整个数据集的子集，而是采用子样本。 Elements 的第7.11节是对Bootstrap方法的一个很好的介绍。

我发现的这个一般主题的最佳单一来源是第7章模型评估和选择来自优秀论文 统计学习要素 由Hastie，Tibshirani和Friedman。本书可从本书homepage免费下载。