我有以下数据集如下所示。 500和500之间的任何值900被归类为A,而值在900和100之间。在A和B之间混合了~1500。我想找到在任何x值得到A,B和C的概率,其中x是我的自变量,A,B,C是我的因变量。它似乎非常适合多项Logistic回归。我相信每个因变量的观测数量就足够了。如果多项日志回归是合适的,我希望使用Python的scikit learn logistic回归模块来获得任何x值的A,B和C的概率,但我不知道如何使用该模块来解决这个问题。
答案 0 :(得分:6)
就个人而言,它看起来像是逻辑回归的合适候选者,但事实上它看起来是一维的重叠可能会使这些部分难以分开。我主要在这里回答你问题的第二部分,它可以推广到scikit-learn中的几乎任何其他分类器。
我建议查看SGDClassifier上的scikit-learn部分,因为它在属性列表下面有一个简单的示例,而是用LogisticRegression类替换SGDClassifier部分。 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier
这里还有LogisticRegression的文档:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression