我是使用R,特别是插入符号的实用机器学习的初学者。 我目前正在为微生物组数据集应用随机森林算法。这些值是相对丰度变换的,所以如果我的特征是列,则行1 == 1
的所有列的总和通常使单元格具有大量的0值。 通常我在插入符号中使用了默认的nzv预处理功能。
默认: 一个。整个数据集中的一个唯一值 湾相对于数据集中的样本数量的少数唯一值(<10%) C。最常见值的频率与第二最常见值的频率的大比率(使用的截止值> 19)
这个函数实际上是不是实际计算方差,而是根据频率确定特征的出现频率和滤波器?如果是这样,将其用于离散/分类变量是否安全?
我的数据集中有很多功能~12k,其中很多可能是单例,或者很多功能都没有值。
我的问题:nzv是否适合这种连续的零膨胀数据集? 您会推荐哪些预处理选项? 当我使用默认的nzv时,我会在决赛桌中放弃一大堆功能(从12k到~2,700 k)
我确实想要一个噪音较小的数据集,但同时又不想放松好的功能
这是我的第一个问题,如果需要,我愿意重新修改,编辑和重新提交。
任何解决方案将不胜感激。
非常感谢!