在形成所有分类变量的假人后,我有628个预测因子。当我运行很多迭代传统的逻辑回归迭代时,我遇到了15个变量,这些变量给了我很好的模型,具有良好的ROC,召回和放大。测试数据的精确度(对于某些截止值)以及所有变量都是显着的(在p <= 0.05)。但由于花了很多时间,我尝试使用套索,在运行10倍交叉验证后获得最佳lambda值后,给了我50个非零系数变量。但传统方法的15个变量与套索50个变量之间只有5个变量。此外,当我试图计算其SE和t-stats时,我发现许多变量都是微不足道的(低t-stats和高p值)。除此之外,ROC的AUC低于传统方法。当我使用传统的逻辑回归分析50个由套索产生的变量时,ROC下降得更多。有人可以帮助我理解它的动态以及我如何能够证明套索模型的系数是否受到惩罚(我在使用套索之前已经将所有变量归一化)?