Logistic回归训练数据集真/假比

时间:2015-10-31 12:06:21

标签: machine-learning prediction logistic-regression apache-spark-mllib

我正在通过基于Spark ML的逻辑回归研究分类器。 我想知道我是否应该为真实,错误训练等量的数据。

我的意思是 当我想将人分为男性或女性时, 是否可以训练一个包含100个男性数据+ 100个女性数据的模型。

在线人可能有40%的男性和60%的女性,但这个百分比是基于过去的,所以它可以改变(如30%的女性,70%的男性)

在这种情况下。 我应该培训哪些女性/男性百分比的数据? 这与过度拟合有关吗?

当我训练了40%女性+ 60%男性的模型时,对70%女性+ 30%男性组成的野外数据进行分类是没有用的?

Spark分类样本数据有43个假,57个真实。 https://github.com/apache/spark/blob/master/data/mllib/sample_binary_classification_data.txt

什么意味着logisticregression中trainig数据的真/假比?

我真的不擅长英语,但希望你能理解我。

1 个答案:

答案 0 :(得分:2)

只要合理,您使用的比例都无关紧要。

60:40,30:70,50:50,没关系。只要确保它不是太不平衡,比如99:1。

如果整个数据集是70:30女性:男性,并且您只想使用此数据集的子集,那么60:40女性:男性比率不会杀死您。

考虑以下示例: 您的测试数据包含99%的男性和1%的女性。

从技术上讲,您可以正确分类所有男性,所有女性不正确,您的算法将显示1%的错误。好像很好吗?不,因为你的数据太不平衡了。

这个低误差不是过度拟合(高方差)的结果,而是一个不平衡数据集的结果。

这是一个极端的例子,但你明白了。