小数据集上的参数选择是否适合总数据集

时间:2016-10-19 05:54:17

标签: machine-learning dataset grid-search

当我进行参数选择时,它总是需要多次选择来进行网格搜索。例如,我想检查随机森林树的NumOfTrees和MaxDepth,如果我在第一个参数中有M1选项而在第二个参数中有M2选项,它将搜索M1 * M2的可能性。

如果它非常大,那么对总数据集进行参数搜索是很昂贵的。

我的问题是,我是否可以使用较小的数据集(对于总数据为180天,对于较小的数据为30天)来进行参数搜索,并将所选参数处理为最佳总数?如果不是,它们之间有多大差异?感谢。

1 个答案:

答案 0 :(得分:0)

这取决于您的30天数据是否代表您的整个持续时间。换句话说,您的目标应该具有与输入要素类似的分布:i)用于参数选择的30天和ii)您希望预测的未来时间。

例如。以下案例不胜任何工作:

您的数据可能具有某种季节性。您的9月份客户购买数据不足以调整参数以预测圣诞季节客户交易。通常在圣诞节期间,流量明显较大,产品的类型/类别也大不相同。