处理稀疏数据帧 - 算法选择

时间:2014-11-24 00:49:04

标签: r machine-learning regression sparse-matrix logistic-regression

我是机器学习/统计建模的新手。

我正在尝试对具有100个功能的高度稀疏数据集运行分类,其中大多数是分类(TRUE / FALSE),其余值缺失。为了处理缺失值,我用“Nothing”文本填充缺失的点,从而创建一个新的级别。

接下来,我试图使用惩罚(glmnet包)运行逻辑回归。当我检查系数时,我看到对应于具有较高系数的'Nothing'的虚拟变量。

我应该如何删除这些系数?什么是更好的方法呢?

或者我应该只使用树木?请建议最好的前进方式。

谢谢!

0 个答案:

没有答案