machine-learning - 模型构建方法 - Thinbug

模型构建方法

时间：2018-02-01 11:07:08

标签： machine-learning statistics logistic-regression

我碰巧有一个4000行的数据集，其中目标变量有3999个1，只有一个0。

这是季度数据，我应该计算下一季度成功的概率。在这里应用逻辑回归是否可行？

或者有人能为我提供更好的选择吗？

1 个答案:

答案 0 :(得分：0)

我同意数据集太不平衡。一个否定的例子不具有统计意义。此外，您无法进行交叉验证，因此您甚至无法验证模型。

您可以尝试以较低维度可视化数据，以检查否定示例是否明显是异常值。您可以查找异常检测＆＃39;主题，了解更多。

但是，如果1将在下一季度发生，你将无法找到答案，因为数据不正确。有了这样的数据，如果你有更多的负面例子，你可以用给定的特征预测下一个新样本的标签。这并不是下一季度发生类似数据集概率的答案。