我最近看过一段视频,解释说对于深度学习,如果你添加更多数据,你就不需要那么多的正规化,这是有道理的。
这就是说,这句话是否适用于#34;正常"像Random Forest这样的机器学习算法?如果是这样,当搜索算法的最佳超参数时,理论上你应该将输入数据集(当然,进一步划分为交叉验证集等)和你拥有的数据一样多,而不仅仅是一个样本。它。这当然意味着更长的训练时间,对于超级参数的每个组合,你都有X交叉验证集,需要训练等等。
所以基本上,假设为数据集的大小样本找到的参数是最好的"是公平的。那些用于整个数据集还是不是?
答案 0 :(得分:1)
从统计学家的角度讲:它实际上取决于估算师的质量。如果它是无偏差和低方差,那么样本就可以了。如果差异很大,您将希望使用所有可用的数据。