所以,我知道在R中你可以用这种形式提供逻辑回归的数据:
model <- glm( cbind(count_1, count_0) ~ [features] ..., family = 'binomial' )
有没有办法用sklearn.linear_model.LogisticRegression做cbind(count_1, count_0)
之类的事情?或者我实际上必须提供所有这些重复的行? (我的功能是绝对的,因此会有很多冗余。)
答案 0 :(得分:0)
如果它们是绝对的 - 您应该提供它的二进制化版本。我不知道R中的代码是如何工作的,但是你应该总是将你的分类特征二进制化。因为您必须强调要素的每个值与其他值无关,即对于具有可能值1,2,3,4的特征“blood_type”,您的分类器必须知道2与3无关,而4不是在任何意义上都与1相关。这些是通过二值化实现的。
如果二值化后功能太多 - 您可以通过FeatureHasher或更复杂的方法(如PCA)降低二值化数据集的维度。