稀疏数据的逻辑回归

时间:2014-03-04 19:40:32

标签: sas logistic-regression

我正在使用逻辑回归模型进行一些预测分析。我们有大约25个预测变量和1个二元结果(Y / N)变量。我正在模拟结果为“Y”的概率。

我的训练数据集中有400,000条记录,评分集中的数字相同。训练集中“Y”的概率为0.1%。 SAS输出的模型的C统计量为0.97,非常好。

当我在我的评分集上运行模型时,我的“正预测值”,即正确识别的“Y”与总“Y”的比率,小于1,这使得我的模型无用。 任何人都可以建议我如何提高阳性预测值?

2 个答案:

答案 0 :(得分:0)

假设您的预测值低于您的预期值,意味着您的模型具有较高的方差(它在训练集中预测得很好但在验证集中没有很好),您应该考虑一些基本选项:

  • 增加模型的复杂性。您的模型可能对数据来说不够复杂。添加更多预测变量,或预测变量或多项式变量的组合。

  • 增加培训示例的数量。您的训练样例可能不足以证明您的模型。典型的比例是60%的训练 - 20%的验证 - 20%的测试; 50%-50%可能不足(虽然400,000通常就足够了,谁知道)。

  • 也许您的培训示例和验证集并非真正随机抽样的人群。例如,如果培训集是2011年的数据,验证集是2012年的数据,那么您的模型可能会有一些年度的变化。

答案 1 :(得分:0)

由于高度偏斜的值,您的算法调用非常低,因此您的回忆(算法的灵敏度很低)对于逻辑回归,我猜您可能会设置非常高的错误率成本错误分类的正例而不是负面例子的成本。希望有所帮助!!!