machine-learning - 用于机器学习的样本与完整数据集的正则化

用于机器学习的样本与完整数据集的正则化

时间：2017-02-01 14:54:52

标签： machine-learning deep-learning random-forest regularized

我最近看过一段视频，解释说对于深度学习，如果你添加更多数据，你就不需要那么多的正规化，这是有道理的。

这就是说，这句话是否适用于＃34;正常＆＃34;像Random Forest这样的机器学习算法？如果是这样，当搜索算法的最佳超参数时，理论上你应该将输入数据集（当然，进一步划分为交叉验证集等）和你拥有的数据一样多，而不仅仅是一个样本。它。这当然意味着更长的训练时间，对于超级参数的每个组合，你都有X交叉验证集，需要训练等等。

所以基本上，假设为数据集的大小样本找到的参数是最好的＆＃34;是公平的。那些用于整个数据集还是不是？

1 个答案:

答案 0 :(得分：1)

从统计学家的角度讲：它实际上取决于估算师的质量。如果它是无偏差和低方差，那么样本就可以了。如果差异很大，您将希望使用所有可用的数据。