应用错误收集

你可以在sklearn逻辑回归输入中使用计数吗？

时间：2016-04-20 23:47:22

标签： python scikit-learn logistic-regression bernoulli-probability

所以，我知道在R中你可以用这种形式提供逻辑回归的数据：

model <- glm( cbind(count_1, count_0) ~ [features] ..., family = 'binomial' )

有没有办法用sklearn.linear_model.LogisticRegression做cbind(count_1, count_0)之类的事情？或者我实际上必须提供所有这些重复的行？（我的功能是绝对的，因此会有很多冗余。）

1 个答案:

答案 0 :(得分：0)

如果它们是绝对的 - 您应该提供它的二进制化版本。我不知道R中的代码是如何工作的，但是你应该总是将你的分类特征二进制化。因为您必须强调要素的每个值与其他值无关，即对于具有可能值1,2,3,4的特征“blood_type”，您的分类器必须知道2与3无关，而4不是在任何意义上都与1相关。这些是通过二值化实现的。

如果二值化后功能太多 - 您可以通过FeatureHasher或更复杂的方法（如PCA）降低二值化数据集的维度。