模型构建方法

时间:2018-02-01 11:07:08

标签: machine-learning statistics logistic-regression

我碰巧有一个4000行的数据集,其中目标变量有3999个1,只有一个0。

这是季度数据,我应该计算下一季度成功的概率。在这里应用逻辑回归是否可行?

或者有人能为我提供更好的选择吗?

1 个答案:

答案 0 :(得分:0)

我同意数据集太不平衡。一个否定的例子不具有统计意义。此外,您无法进行交叉验证,因此您甚至无法验证模型。

您可以尝试以较低维度可视化数据,以检查否定示例是否明显是异常值。您可以查找异常检测'主题,了解更多。

但是,如果1将在下一季度发生,你将无法找到答案,因为数据不正确。有了这样的数据,如果你有更多的负面例子,你可以用给定的特征预测下一个新样本的标签。这并不是下一季度发生类似数据集概率的答案。