替代R中的Boruta函数用于大数据集

时间:2017-09-18 09:53:45

标签: r feature-selection

我有一个90,275行的数据集& 60个变量。我想为这个数据集做特征工程。以前我在Boruta包下使用Boruta()进行特征工程。但是看到数据集的大小,我觉得Boruta()需要很长时间。 你能否为我推荐一些替代Boruta的特征工程大数据集?

1 个答案:

答案 0 :(得分:0)

一般的答案是,它取决于您的数据格式(变量类型),因为不同FE / FS算法的输入空间差别很大。

所以,首先,请提供数据框的结构。

但有一会儿,我会假设你有以下格式: 1)数字 2)因素,字符,逻辑和虚拟变量 3)数字和因子变量的混合

数字输入:PCA,LDA,anova,Pearson相关性应该可以帮助您降低维数。由于它的数字数据

,它的工作速度非常快

因素&混合:anova,基于树的解决方案(随机森林,xgboost,立体主义)通过检查模型的重要变量。这些选项也非常快,假设您的数据没有太多级别(即变量"城市"有200个选项等)。