我想找到一个RandomForest分类器的最佳参数(使用scikit-learn),它可以很好地推广到其他数据集(可能不是iid)。 我在考虑使用整个训练数据集进行网格搜索,同时评估其他数据集上的评分函数。 在python / scikit-learn中有一个很容易做到的吗?
答案 0 :(得分:1)
我认为您无法评估不同的数据集。 GridSearchCV背后的整个想法是它将你的训练集分成n个折叠,训练n-1个折叠并评估剩下的一个,重复这个过程直到每个折叠都是“奇怪的一个”。这使您无需将特定验证集分开,只需使用培训和测试集即可。
答案 1 :(得分:1)
如果可以,您可以简单地合并两个数据集并执行GridSearchCV,这可以确保对其他数据集的泛化能力。如果您正在讨论对未来未知数据集的泛化,那么这可能不起作用,因为没有一个完美的数据集可以从中训练出完美的模型。