用于机器学习的样本与完整数据集的正则化

时间:2017-02-01 14:54:52

标签: machine-learning deep-learning random-forest regularized

我最近看过一段视频,解释说对于深度学习,如果你添加更多数据,你就不需要那么多的正规化,这是有道理的。

这就是说,这句话是否适用于#34;正常"像Random Forest这样的机器学习算法?如果是这样,当搜索算法的最佳超参数时,理论上你应该将输入数据集(当然,进一步划分为交叉验证集等)和你拥有的数据一样多,而不仅仅是一个样本。它。这当然意味着更长的训练时间,对于超级参数的每个组合,你都有X交叉验证集,需要训练等等。

所以基本上,假设为数据集的大小样本找到的参数是最好的"是公平的。那些用于整个数据集还是不是?

1 个答案:

答案 0 :(得分:1)

从统计学家的角度讲:它实际上取决于估算师的质量。如果它是无偏差和低方差,那么样本就可以了。如果差异很大,您将希望使用所有可用的数据。