nzv过滤器用于插入符号

时间:2016-03-02 00:19:10

标签: r r-caret

我是使用R,特别是插入符号的实用机器学习的初学者。 我目前正在为微生物组数据集应用随机森林算法。这些值是相对丰度变换的,所以如果我的特征是列,则行1 == 1

的所有列的总和

通常使单元格具有大量的0值。 通常我在插入符号中使用了默认的nzv预处理功能。

默认: 一个。整个数据集中的一个唯一值 湾相对于数据集中的样本数量的少数唯一值(<10%) C。最常见值的频率与第二最常见值的频率的大比率(使用的截止值> 19)

这个函数实际上是不是实际计算方差,而是根据频率确定特征的出现频率和滤波器?如果是这样,将其用于离散/分类变量是否安全?

我的数据集中有很多功能~12k,其中很多可能是单例,或者很多功能都没有值。

我的问题:nzv是否适合这种连续的零膨胀数据集? 您会推荐哪些预处理选项? 当我使用默认的nzv时,我会在决赛桌中放弃一大堆功能(从12k到~2,700 k)

我确实想要一个噪音较小的数据集,但同时又不想放松好的功能

这是我的第一个问题,如果需要,我愿意重新修改,编辑和重新提交。

任何解决方案将不胜感激。

非常感谢!

0 个答案:

没有答案