我有一个包含330个样本的数据集,每个样本有27个特征,Logistic回归的二元类问题。
根据“十条规则”,我需要为每个要素包含至少10个事件。虽然,我有一个不平衡的数据集,20%的正面类和80%的负面类。
这只给了我70个事件,大约只有7/8个特征被包含在Logistic模型中。
我想评估所有功能作为预测器,我不想手动挑选任何功能。
那么你会建议什么?我应该制作所有可能的7种功能组合吗?我应该仅使用关联模型评估每个特征,然后仅为最终模型选择最佳特征吗?
我也对分类和连续功能的处理感到好奇,我可以将它们混合使用吗?如果我有分类[0-1]和连续[0-100],我应该正常化吗?
答案 0 :(得分:0)
您最好的选择是使用L1正则化逻辑回归(又名Lasso回归)。如果你不熟悉它,算法会自动选择一些特征,惩罚那些不会提高准确性的特征(用外行术语)。
您可以增加/减少此正则化强度(它只是一个参数),直到您的模型在测试集或交叉验证过程中达到最高准确度(或其他度量标准)。