应用错误收集

我是使用R，特别是插入符号的实用机器学习的初学者。我目前正在为微生物组数据集应用随机森林算法。这些值是相对丰度变换的，所以如果我的特征是列，则行1 == 1

的所有列的总和

通常使单元格具有大量的0值。通常我在插入符号中使用了默认的nzv预处理功能。

默认：一个。整个数据集中的一个唯一值湾相对于数据集中的样本数量的少数唯一值（<10％） C。最常见值的频率与第二最常见值的频率的大比率（使用的截止值> 19）

这个函数实际上是不是实际计算方差，而是根据频率确定特征的出现频率和滤波器？如果是这样，将其用于离散/分类变量是否安全？

我的数据集中有很多功能~12k，其中很多可能是单例，或者很多功能都没有值。

我的问题：nzv是否适合这种连续的零膨胀数据集？您会推荐哪些预处理选项？当我使用默认的nzv时，我会在决赛桌中放弃一大堆功能（从12k到~2,700 k）

我确实想要一个噪音较小的数据集，但同时又不想放松好的功能

这是我的第一个问题，如果需要，我愿意重新修改，编辑和重新提交。

任何解决方案将不胜感激。

非常感谢！