应用错误收集

时间：2017-09-18 09:53:45

标签： r feature-selection

我有一个90,275行的数据集＆amp; 60个变量。我想为这个数据集做特征工程。以前我在Boruta包下使用Boruta（）进行特征工程。但是看到数据集的大小，我觉得Boruta（）需要很长时间。你能否为我推荐一些替代Boruta的特征工程大数据集？

答案 0 :(得分：0)

一般的答案是，它取决于您的数据格式（变量类型），因为不同FE / FS算法的输入空间差别很大。

所以，首先，请提供数据框的结构。

但有一会儿，我会假设你有以下格式： 1）数字 2）因素，字符，逻辑和虚拟变量 3）数字和因子变量的混合

数字输入：PCA，LDA，anova，Pearson相关性应该可以帮助您降低维数。由于它的数字数据

，它的工作速度非常快

因素＆amp;混合：anova，基于树的解决方案（随机森林，xgboost，立体主义）通过检查模型的重要变量。这些选项也非常快，假设您的数据没有太多级别（即变量＆＃34;城市＆＃34;有200个选项等）。