我碰巧有一个4000行的数据集,其中目标变量有3999个1,只有一个0。
这是季度数据,我应该计算下一季度成功的概率。在这里应用逻辑回归是否可行?
或者有人能为我提供更好的选择吗?
答案 0 :(得分:0)
我同意数据集太不平衡。一个否定的例子不具有统计意义。此外,您无法进行交叉验证,因此您甚至无法验证模型。
您可以尝试以较低维度可视化数据,以检查否定示例是否明显是异常值。您可以查找异常检测'主题,了解更多。
但是,如果1将在下一季度发生,你将无法找到答案,因为数据不正确。有了这样的数据,如果你有更多的负面例子,你可以用给定的特征预测下一个新样本的标签。这并不是下一季度发生类似数据集概率的答案。