标签: r random r-caret cross-validation
我想在R中执行交叉验证。
我的数据有80个级别的分类变量,但其中一些级别只有少数代表(通常为10个或更少)。我想确保我的训练和测试集在我的分类变量的这些低代表性级别中包含足够的样本以正确运行。
然而,交叉验证中的数据拆分通常是随机的,因此我担心在培训和测试数据拆分集中可能没有很好地表示低样本类别。
R中是否有办法以确保给定分类变量的低频水平在训练集和测试集之间均匀分布的方式分割数据?
背景:我有~90000个重复测量树生长样本,代表了80个分类变量(种类)的水平。