我正在处理包含至少100K行和至少10K变量的数据集。有相当数量的NULL值。大多数变量都是数字的,少数变量是绝对的。
我想使用像randomForest这样的东西进行变量选择,但当然NAs是个问题。
这些数据有哪些强大的变量选择方法?
答案 0 :(得分:0)
由于我无法添加评论,我将尝试回答......我正在处理与您类似的数据类型。我所做的是首先以长格式处理数据并计算每个“潜在预测器”的列联表,我使用过滤器特征选择方法为我的数据集选择好的预测变量。我试着举一个例子:
ID | PREDICTOR | PREDICTOR_VALUE | CLASS
1 | PRED_1 | 3 | 0
2 | PRED_1 | 1 | 1
2 | PRED_2 | 2 | 1
正如您所看到的,如果您将数据放入宽格式,那么对于PRED_2,如果ID = 1,您将获得NULL。
使用长格式的数据,我为每个预测器计算一个列联表,其中列出了每个类的频率,我用它来计算例如信息增益。然后,我使用信息增益的值对预测变量进行排名。然后,您可以从该列表中选择前100或1000或任何数量的预测变量。选择它们后,您可以以宽格式转换数据。你可能仍然会有一些缺失的值,但是你可以使用他们在上面的评论中建议的插补,或者例如,在我的情况下,因为我使用频率,如果预测器不出现在案例中,我只会把0。 我希望这有助于或至少提供一些关于如何解决问题的想法......